داده فارسی چالش اصلی توسعه هوش مصنوعی در ایران
مشکلات زیرساختی، محدودیت در دسترسی به دادهها و نبود چارچوب قانونی مشخص عمده چالشهای مسیر توسعه هوش مصنوعی مولد در کشور است. متخصصان این حوزه با لحاظ این موارد، تامین، تجهیز و فراهم کردن شرایط مناسب برای فعالیت نیروی انسانی ماهر و متخصص را عاملی در پیشبرد این مسیر و کاهش نرخ مهاجرت این افراد عنوان کردند.
به گزارش پیوست، هوش مصنوعی مولد مانند هر فناوری دیگر هراسی را با ورود به جامعه با خود به همراه دارد. فارغ از جهتگیری افکار عمومی نسبت این پدیده، عقب نماندن از قطار توسعه آن، امری است که برای جوامع به یک ضرورت تبدیل شده است.
مشکلات زیرساختی و دسترسی به دادهها
مهران ضیابری، مدیرعامل ترگمان با اشاره به این موضوع که مهمترین چالشی که در توسعه هوش مصنوعی با آن مواجهیم زیرساختهای پردازشی و زیرساختهای دادهای است؛ توسعه هوش مصنوعی در کشور را حول سه نیاز سختافزاری، نیاز نرمافزاری و دادافزاری و در نهایت نیاز مغزافزاری تعریف کرد. او بیشترین چالش را متعلق به بخش زیرساختهای سختافزاری، پردازشی و دادهای دانست و گفت: «نمیتوان میان این حوزهها تفاوتی قائل شد و یکی را نسبت به دیگری مهمتر دانست.»
مدیرعامل ترگمان اعلام کرد که در حال حاضر بیش از ۴۰ میلیارد توکن داده ترگمان اپن سورس شده است و به مرور نیز به این عدد افزوده خواهد شد. او در رابطه با چالشهای جمعآوری، آمادهسازی و برچسبگذاری دادهها گفت: «از این منظر مساله نداریم. در کشور امکان و توان گردآوری و برچسبگذاری و حتی دسترسی وجود دارد. هزینهها هم منطقی و معقول است و فرآیند آنچنان پیچیده نیست. آن چیزی که به آن دسترسی نداریم دادگان عظیم دولتی و خصولتی است.»
دسترسی به دادههای حاکمیتی
ضیابری در ادامه گفت: «دسترسی به دادههای حاکمیتی اساسا به خاطر قوانین و قواعد معارضی که وجود دارد بسیار سخت شده است و تقریبا میتوان گفت دسترسی به آنها امکانپذیر نیست. حتی برخی از دادهها مثل دادههای کتابخانه ملی، دادههای خبرگزاریها و دادههای وزارت ارشاد و سازمانها که اساسا دادههایی است که در زمره دادههای محرمانه قرار نمیگیرد، میتوان با اتخاذ ساز و کارهایی که حق مالکیت نقض نشود در اختیار پژوهشگران قرار داد. برای دادههای به نوعی محرمانه و دادههایی که یک مقدار امنیتی هستند هم ساز و کار اجرایی وجود دارد اما یک عزم حاکمیتی میخواهد که اجازه بهرهبرداری از این دادهها را ایجاد کند.»
ضیابری همچنین توسعه و پیشرفت هوش مصنوعی را مستلزم دسترسی به دادههای صنعتی دانست.
محمدرضا معبودیان، رئیس کمیسیون هوش مصنوعی با قیاس مدل زبانی فالکون و شرایط کشور گفت: «ما اکنون با استناد به خوشبینانهترین آمارها در کشور حدود یکصد GPU از نوع A100 داریم و درواقع برای ایجاد چنین مدلهایی از منظر زیرساخت با مشکل جدی مواجه هستیم و باید حتما مکانیسم اجاره GPU را از انواع ارائهدهندگان خدمات پردازشی بزرگ بینالمللی مثل IBM و گوگل و آژور در دستور کار قرار دهیم.»
او در رابطه با تجربه موفق ترگمان در کشور گفت: «میتوان گفت که این دادههای عظیم از خزش وب فارسی ایجاد شده است که کار بسیار بزرگ، با رعایت استانداردهای لازم و قابل استفاده همگان است، اما نکتهای که وجود دارد این است که ما در حوزه داده فارسی نیاز داریم که دادههای سازمانی و ملی یعنی تمام کتب، نشریات، قوانین و دستورالعملها، تا حتی زیرنویس همه فیلمها و متن همه برنامه های رادیویی و حتی گزارشات کارشناسی سازمانهای اجرایی، همگی و همه را به حفظ پروتکلهای آزادرسانی دادهها به این مجموعه اضافه کنیم، که متاسفانه در این زمینه هم ما مشکلات فرهنگی و هم مشکلات زیرساختی فراوانی داریم.» معبودیان در بحث چالشهای زیرساختی توسعه هوش مصنوعی مولد به اهمیت لایه گارد «Guard Layer» که اصطلاحا شرکت OpenAI به آن RLHM میگوید پرداخت. او گفت: «این لایه از عملکرد هوش مصنوعی مولد محافظت میکند و به عنوان مثال اجازه نمیدهد هوش مصنوعی فرمول تهیه مواد مخدر را بسازد یا در مورد مسائل جنسیتی صحبت کند. حتی خیلی اوقات مشاهده کردهایم که در پاسخ به سوالات اینچنینی هوش مصنوعی گفته است اجازه ندارد چنین محتوایی را ارائه دهد نه اینکه نمیداند.»
رئیس کمیسیون هوش مصنوعی اهمیت این لایه در توسعه هوش مصنوعی مولد برای سازمانها و کسبوکارها را بیشتر دانست زیرا آنها باید به فراخور حال و هوای مشتریانشان و محدودیتهایی که در جامعه وجود دارد هوش مصنوعی را تنظیم کنند تا با محدودیتهای سازمانهای نظارتی و بازخورد نامناسب کاربران مواجه نشوند.
او رگ نکردن (RAG) (Retrieval-augmented generation) شرکتها را یکی دیگر از چالشهایی که با آن مواجهیم بیان کرد. به این صورت که منبعی به بزرگی یک کتابخانه مشتمل بر چهار هزار کتاب در حوزههای مختلف فلسفوی یا روانشناسی و غیره وجود دارد. اگر کسی بخواهد سوالی بپرسد باید ابزار هوش مصنوعی مولد با توجه به آن منابع پاسخ را ارائه کند نه اینکه از تمام اطلاعات موجود در وب استفاده کند. باید منبع مشخص و در دامین مشخصی باشد.
معبودیان در ادامه گفت: «در واقع ما در زمینه زیرساخت، دادگان و ارائه محصولات بالغ که باید سازمانها نسبت به این ارائهها گارد داشته و رگ بزنند چالش داریم.»
دادههای طلایی
بهروز مینایی بیدگلی، دبیر ستاد فناوریهای هوش مصنوعی علاوهبر اینکه نیازمندی کشور به یک زیرساخت خیلی مفصل پردازشی را چالش این حوزه عنوان کرد در رابطه با چالشهای مربوط به دادهها گفت: «دادههای کتابخانه ملی، وزارت ارشاد، موسسات دولتی و حتی بخش خصوصی دادههایی است که اگر در اختیار LLMها قرار بگیرد میتواند در دقت و کیفیت پاسخگویی تحول ایجاد کند. این دادهها را در اختیار داریم که مانند طلایی است که آن را ذخیره کردیم و از آن استفاده آنچنانی نمیکنیم. اما مهمتر از آن ساخت LLMها یا ایجاد مدلهای زبانیای است که مشکلات صنعت بورس یا سلامت را برطرف کند.»
او رسیدگی، توجه و پرداختن به این مدلهای زبانی که به شکل خاص زیرساختهای پیشین را نمیخواهد و در حوزههای مختلف قابلیت استفاده و پاسخگویی را دارد با لحاظ هنجارهای جامعه بسیار مناسب و موثر دانست.
چالش آموزش مدلهای زبانی
حمیدرضا سلطانعلیزاده، سرپرست فنی تیم پارت در کنار چالشهای مربوط به زیرساخت، آموزش دادن مدلهای زبانی را مستلزم برخورداری از چندین نوع داده اعلام کرد و گفت: «بخشی از این دادهها روتکست یا متن خامی است که برچسبگذاری روی آنها ایجاد نشده است. بخش زیادی از داده مورد نیاز را این نوع از داده تشکیل میدهد. با توجه به پارادیم دادهمحور که پارادایم مسلط بر هوش مصنوعی است تمایز میان مدلهای منتشر شده از منظر کیفیت داده است. یعنی هر چه مدل روی داده باکیفیتتر و غنیتر با حجم بیشتری آموزش داده شود طراحی مدلهای زبانی پایه نیز از کیفیت بالایی برخوردار خواهد بود. بخش مهمی از رقابت بین مدلها نیز در همین نقطه انجام میشود.»
سرپرست فنی تیم همچنین گفت: «اگر بخواهیم مدل زبانیای در زبان فارسی طراحی کنیم که نسبت به مدلهای دیگر مزیت رقابتی داشته باشد این امر از طریق منابع و دادههایی اتفاق میافتد که اساسا شرکتهای خارجی به آن دسترسی ندارند. برای مثال دسترسی به ایرانداک به عنوان مرجعی که پایاننامهها را تجمیع و نگهداری میکند و کتابخانه ملی که منبع از هر کتاب یک نسخه در آن موجود است. مجموعه نور هم یکی دیگر از این منابع است که هم در حوزه علوم انسانی و هم علوم حوزوی مقالات، مجلات و کتب را نگهداری میکند. این سه منبع اصلی و مرجعی است که از طریق آنها میتوان به مزیت رقابتی دست یافت.»
ایرانداک هم دیتاسنتری است که با در اختیار داشتن مجوز اساسا باید منابع را منتشر کند. اسناد و دادههای قضایی، گزارش جلسات، آرای حقوقی و غیره که با بینامسازی باید منتشر شود. این هم یک منعی است که مهم است اما نسبت به سه منبع دیگر نسبتا کماهمیت است.
او گفت حتی اگر چالش مربوط به دادههای مورد نیاز برطرف شود نیازمندی به زیرساخت در کشور همچنان یکی از چالشها و دغدغههای اصلی است که ملموس است. علاوهبر ضعف در زیرساخت، مساله تجربه هم مطرح است و برای توسعه مدلها وجود زیرساخت برای تجربهمندی نیروی انسانی یک ضرورت است.
قطار قانونگذاری روی چه ریلی است؟
بهطور کلی تدوین و تصویب قانون برای هوش مصنوعی در حال بررسی است و هنوز چارچوب قانونی کلی برای این فناوری در اختیار نیست. بسیاری از مراکز و مجامع مانند سازمان جهانی مالکیت فکری، اتحادیه اروپا، آمریکا و غیره طرحهای متعددی را پیشنهاد دادند اما همچنان هیچ یک از آنها به صورت رسمی به مرحله تصویب اجرایی شدن نرسیده است.
ضیابری درباره بحث مالکیت هوش مصنوعی مولد گفت: «بحث حق مالکیت موضوعی نیست که فقط مساله یا چالش ما باشد. در سطح جهانی در این باره بحث وجود دارد. در همه جا این موضوع پیچیده است و در ایران پیچیدهتر. ما در کشور قواعد و قوانین مشخصی در این زمینه نداریم که بتوان به آن استناد کنیم. در حال حاضر یکسری قوانین داریم که بسیار محدود به موضوع پرداختهاند و بهروز نیست .»
او درباره قانونگذاری دادهها گفت: «دادههای کتابخانه ملی از ۲ جنس است. دادههایی که بالای ۳۰ سال از انتشارشان گذشته و دادههای زیر ۳۰ سال. دادههای نوع دوم مشمول حمایت از حقوق پدیدآورنده میشود و بابت همین، پیچیدگیهای بهرهبرداری را هم دارد. در اینجا نیز باید قوانینی تصویب شود. مادامی که در این زمینه محدودیت داریم باید به قوانین حمایت از پدیدآورندگان روی بیاوریم.»
ضیابری یکی از اصلیترین نیازمندیهای حال حاضر کشور را وجود یک قانون مدون برای هوش مصنوعی عنوان کرد و گفت: «مشکل این است که مراکز حاکمیتی ما بیشتر علاقهمند به حکمرانی «بر» هوش مصنوعی هستند تا حکمرانی «با» هوش مصنوعی. صحبت همیشه از مخاطرات هوش مصنوعی است و اقدامات نیز در جهت کنترل و پیشگیری از پیامدهای منفی آن صورت میگیرد.»
او طراحی و تدوین فوری یکسری از قواعد و قوانین برای پیشرفت هوش مصنوعی را الزامی دانست که مسیرش از مجلس عبور نمیکند. مدیرعامل ترگمان با اشاره به این نکته که هوش مصنوعی فناوریای است که هر ۶ ماه یک بار در حال تغییر، تحول و بهروزرسانی است گفت:«نمیتوان برای این فناوری در مجلس طرح دو یا سه فوریتی تصویب کرد در نتیجه تصویب قانون چند سال طول میکشد یعنی عملا مسیر قانونگذاری بر این فناوری در مسیر عادی تصویب قوانین نیست؛ و در این زمینه نیازمند کمک از سوی شوراهای عالی هستیم.»
پدرام الوندی، پژوهشگر ارتباطات با در نظر گرفتن شرایط نه چندان خوب اکوسیستم برای توسعه و همچنین جذب سرمایه که متاثر از وضعیت اقتصادی کلان است گفت:«مختصات فکری و دیدگاه افرادی که قرار است در دولت جدید در سمت و جایگاههای مهم و تصمیمگیرندهای برای این اکوسیستم قرار بگیرند قطعا در چگونگی طی شدن این مسیر و تخصیص بودجه به بخشهای مختلف کمککننده و موثر خواهد بود.»
پژوهشگر ارتباطات معتقد است تعیین افرادی که نگاهی گشوده به ماجرا دارند و بهطور کلی تغییر دید نسبت به تخصیص بودجه به حوزه فناوری که از طریق پارکهای علم و فناوری و دانش بنیان از سوی معاونت علم و فناوری اجرایی میشود میتواند حداقل یک نفس تازهای به شرایط فعلی ببخشد.
هراس از فناوری؛ جهتگیری افکار عمومی چیست؟
مواجهه با هر پدیده جدید و نو هراس حضور آن را در ابتدا شکل میدهد. منشاء این ترس، ندانستنی است که شاید به مرور و با آگاهی به دانشی تبدیل شود که از آن پدیده بیشترین بهره را ببرد. فناوری در هر نوع و در هر زمان ورودی تحولبرانگیز داشته است و ناشناختی آن ترس و سردرگمی را در جوامع بهوجود آورده است. هوش مصنوعی مولد مانند هر فناوری دیگر که در ابتدا ترسناک و حتی مخرب جلوه میکرد، اینچنین بروز پیدا کرد. پذیرش فناوری در جوامع با لحاظ این موضوع، متاثر از شرایط فردی، اجتماعی، اقتصادی و فرهنگی است. لذا قبول هوش مصنوعی مولد از هر جامعه به جامعه دیگر متفاوت است.
پدرام الوندی در این باره گفت: «اکنون هوش مصنوعی برای عموم مردم حکم یک سرگرمی و بازی را دارد. آنها میدانند که یک فناوری وارد زندگیشان شده است اما هنوز از چگونگی استفاده و کاربردهای آن اطلاع چندانی ندارند. پذیرش این فناوری در روزمرگیها برای مردم زمانبر خواهد بود کمااینکه نوآوریهایی هم در حال شکلگیری است. اما تا به اینجا بیشترین اخبار و اطلاعات منتشر شده از هوش مصنوعی از جنس تهدید بود. همیشه هم همینطور است. به محض ورود یک چیز نو به جامعه چالشها و تهدیدهای آن بیشتر مطرح و گفته میشود. پیرامون این تهدیدات، با هشدارهایی از سمت پلیس در رابطه با امنیت دادهها، توصیههای کارشناسان علوم تربیتی از باب نگرانیهای مربوط به کودکان رو به رو میشویم و این جریان، جریانی است که هنگام ورود و بهکار بستن هر فناوری طی شد. اما پس از اینکه مردم با آن فناوری آشنا شوند و استفاده از آن پیش برود دیگر مسیر عوض میشود.»
الوندی درباره تاثیر رسانهها بر افکار عمومی در پذیرش هوش مصنوعی مولد نیز گفت: «حتی رسانهها هم ابتدا به ابعاد نگرانکننده پدیدههای نو میپردازند و برجسته کردن بخشهای خطرناک مانند انتشار تصاویر جعلی یا دیپفیکها این فناوری را بازتاب میدهند. اما بالاخره یک روزی مردم از هوش مصنوعی مانند استفاده از نقشه جهت مسیریابی در زندگی روزمره استفاده خواهند کرد. این روند، روند آشنایی است ولی به نظر در ایران یک مقدار طول میکشد.»
معبودیان، جهتگیری افکار عمومی در سطح جهانی را با استفاده از نمودار هایپ سایکل گارتنر (Gartner Hype Cycle) تشریح کرد و گفت: «طبق این نمودار که حالت زنگولهای دارد میتوان گفت این روند منحنی شکل که از پایین شروع میشود و به اوج میرسد و سپس به خط تبدیل میشود نشاندهنده این است که پس از بالا و پایین شدن یک روند بالاخره به یک تعادلی خواهیم رسید. این نمودار نه تنها نسبت به هوش مصنوعی بلکه برای هوش مصنوعی مولد هم صدق میکند. مردم در سراسر جهان روی قله توهم این نمودار ایستادهاند و به اصطلاح نسبت به این فناوری غلو میکنند. پس از اینکه رسانهها و تکنیکالیستها و سازمانها توامان درباره محدودیتها و کارکردهای آن صحبت و اطلاعرسانی کنند عملا موضوع را شفافسازی کرده و مردم متوجه میشوند که تا پیش از این درباره این موضوع حرف و شوآف بسیار بوده است. در این برهه است که دیگر از بالای قله پایین میآییم. زمانی که به حالت خطی نمودار رسیدیم میتوان آن فناوری را تجاریسازی کرد و از طریق آن به کسب درآمد رسید.»
چالش پذیرش افکار عمومی
معبودیان درباره وضعیت افکار عمومی نسبت به هوش مصنوعی مولد گفت: «بهنظرم افکار عمومی نسبت به این فناوری در پیک قرار دارد. فعلا در قله هستیم و به زعم من طی دو سال آینده از این پیک عبور خواهیم کرد.»
او معتقد است زمانی که این توهم از بین برود و کاربرد این فناوری شفاف شود ثبات در جوامع برقرار میشود. در واقع صنایع، سازمانها و افراد هم از معایب این فناوری آگاه میشوند هم از حسنهای آن، و در این صورت است که استفاده از آن موثر و ثبات برقرار خواهد شد.
معبودیان گفت: «درباره پذیرش هوش مصنوعی مولد در ایران باید جامعه را به سه سطح تقسیم کرد. دولت، سازمانها و مردم. از آنجایی که مدیران دولتی ما اثباتگرا هستند و ذات فناوری اساسا تحولگراست، پذیرش در این لایه دشوار است. در سطح سازمانی که اکثر آنها خصولتی هستند و از لحاظ مالی وضعیت کمی بهتری دارند پذیرش نیز بهتر است. از منظر عموم مردم جامعه نیز بستگی دارد که هوش مصنوعی مولد را برای مردم چه تعریف کنیم. اگر اطلاعرسانی و آگاهی دادن به جامعه به شکل مفید اتفاق بیفتد اتفاقا پذیرش در لایه مردم بیشتر خواهد بود.»
زیرساخت ناکافی انگیزهای برای مهاجرت
مشکلات زیرساختی و کفایت نکردن منابع و فراهم نبودن شرایط برای فعالیت انگیزه را برای ماندن تقلیل داده است. نیروی انسانی ماهر و متخصص در کشور میدان بزرگ کسب و کار را چندان مساعد نمیبیند و نبود الزامات برای توسعه این فناوری در کشور و نقشآفرینی آنها و مضاف بر این، امکانات خارج از ایران دلایل مهاجرت است.
سلطانعلیزاده در رابطه با دلایل افزایش مهاجرت نیروی انسانی متخصص هوش مصنوعی در کشور گفت: «در کشور از نظر نیروی انسانی توانمند در حوزه هوش مصنوعی کمبودی نداریم، مسالهای که هست مهیا نبودن شرایط مناسب برای کسب تجربه توسط این افراد است. نیروی انسانی ما دانش ضمنی را دارا است اما برای تبدیل شدن این دانش ضمنی به دانش تکنیکال نیاز به تامین زیرساختها و یکسری پیشزمینههایی است. تا زمانی که نیروی انسانی مواجهه مستقیمی با این موضوع نداشته باشد قاعدتا تجربه لازم بهدست نمیآید.»
ضعف در زیرساختها، نداشتن تجهیزات و برخوردار نبودن از امکانات کافی در این زمینه دلایل مهاجرت را بیشتر میکند. سلطانعلیزاده اشاره کرد شرکتهای بزرگ دنیا روی زیرسختهای عظیم سختافزاری سرمایهگذاری کردهاند؛ برای نمونه شرکت متا بالغ بر ۱۰ میلیارد دلار روی زیرساخت پردازشی خود سرمایهگذاری کرده است این در حالی است که زیرساخت کل کشور ما از یک آزمایشگاه دانشگاهی مانند Han lab در دانشگاه استنفورد کمتر است. او همچنین ناکافی بودن این موارد و مهیا نبودن شرایط را از جمله دلایل اصلی و عمده مهاجرت نیروی کار متخصص از کشور به شمار آورد.
سرپرست فنی تیم پارت در ادامه افزود: «سیاستگذاری در کشور برای بهکار بستن و توسعه هوش مصنوعی مولد باید برای مبدل شدن دانش ضمنی و نظری به دانش عملی و ایجاد جامعه متنباز اتفاق بیفتد. نوع نگاه به این موضوع بسیار اهمیت دارد که توسعه مدلهای هوش مصنوعی و دیگر تکنولوژیها هم حول محور همین موضوع شکل میگیرد.
ضعف در توسعه سیستمهای بومی
ضیابری درباره افزایش نرخ مهاجرت نیروی ماهر و متخصص از کشور توضیح داد: «در خوب بودن نیروهای دانشگاهی ما در این حوزه که توان راهبردی و اجرایی هوش مصنوعی را دارند شکی نیست. در واقع ما از منظر نیروی انسانی متخصص بضاعت بالایی داریم اما وجود یکسری خلأ که عمدتا غیرفنی است نرخ مهاجرت این افراد را افزایش دادهاست. موضوع مهم دیگر در رابطه با نیروی متخصص هوش مصنوعی در ایران مهندسی این فناوری است. از سمت دانشگاه و بهطور کلی سواد افراد مشکلی وجود ندارد مساله مهم برای فرا رفتن از مرحله آموزش یک مدل به ارائه یک محصول یا سرویس فاصله و ضعف داریم. حضور مهندسان هوش مصنوعی در اینجاست که موثر خواهد بود. کشورهای دیگر این بخش مهندسی را به وبسرویس آمازون و آژور واگذار کردند و چون ما به اینها دسترسی نداریم باید از سیستمهای بومی استفاده کنیم و همچنین مهندسی را نیز بومیسازی کنیم.»
او در این زمینه گفت لازم است علاوه بر توسعه مدلهای بومی به تربیت نیروی انسانی متخصص مهندسی هوش مصنوعی پرداخت و نیاز حال حاضر کشور را سالانه دو هزار نفر تخمین زد.