وقتی بحث الگوهای زبانی بزرگ – مانند GPT که به چتبات ساخته OpenAI یعنی چت جیپیتی قدرت میدهد- به میان میآید، سرنخ در اسم آن نهفته است. سیستمهای هوش مصنوعی مدرن که از شبکههای عصبی مصنوعی گسترده و بیتهای نرمافزاری مدلسازی شده قدرت میگیرند، نسبت به مغزهای بیولوژیکی عملکرد آزادانهتری دارند. الگوی زبانی GPT-۳ که در سال ۲۰۲۰ عرضه شد، یک الگوی زبانی بسیار بزرگ بود؛ ۱۷۵ میلیارد پارامتر داشت که به اندازه ارتباطات شبیهسازی شده میان نورونهای مغزی بود. این الگوی زبانی با در اختیار داشتن هزاران تراشه گرافیکی ویژه هوش مصنوعی، توانسته بود صدها میلیارد کلمه از متون مختلف را در طول چندین هفته آموزش ببیند. به نظر میرسد که تمام این فرآیندها دستکم هزینه ۶/ ۴ میلیون دلاری در بر داشتند.
با این حال، مهمترین نتیجه به دست آمده از تحقیقات مربوط به هوش مصنوعی مدرن این است که اگرچه الگوی زبانی بزرگ خوب است، اما الگوهای بزرگتر بهتر هستند. به این ترتیب الگوهای زبانی به سرعت رشد میکنند. به نظر میرسد GPT-۴ که در ماه مارس عرضه شد، چیزی در حدود یک تریلیون پارامتر دارد که نزدیک به شش برابر بیشتر از الگوی زبانی پیش از خود است. سم آلتمن، مدیرعامل شرکت OpenAI پیشبینی کرده است که هزینههای مربوط به توسعه این الگوی زبانی به بیش از ۱۰۰ میلیون دلار برسد. روندهای مشابهی در کل این صنعت وجود دارد. شرکت تحقیقاتی Epoch AI در سال ۲۰۲۲ تخمین زد که قدرت رایانشی لازم برای آموزش الگوهای زبانی مدرن در هر شش یا ۱۰ ماه، دو برابر خواهد شد.
این عظمت و بزرگی، به تدریج به یک مشکل تبدیل میشود. اگر آمار Epoch AI از ۱۰ برابر شدن قدرت رایانشی لازم در هر ۱۰ ماه درست باشد، پس هزینههای مربوط به آموزش این الگوهای زبانی هم تا سال ۲۰۲۶ به رقمی میلیارد دلاری خواهد رسید؛ با چنین فرضی الگوهای زبانی از دیتاهای اولیه خود خالی نخواهند شد. یک گزارش تحلیلی در ماه اکتبر سال گذشته میلادی منتشر شد که پیشبینی میکند احتمالا موجودی متون باکیفیت برای آموزش تقریبا تا همان زمان (سال ۲۰۲۶) به خوبی مصرف خواهد شد و حتی زمانی که این فرآیند آموزش تکمیل شود، استفاده از الگوی مبتنی بر آن هم میتواند گران باشد. اجرا و استفاده از این الگوی زبانی بزرگتر، هزینه بیشتری هم در پی خواهد داشت. در اوایل سال جاری میلادی بانک سرمایهگذاری مورگان استنلی پیشبینی کرد که در حال حاضر نیمی از جستوجوهای گوگل با یک برنامه شبیه جیپیتی مدیریت میشوند و این فرآیند میتواند در هر سال هزینه مضاعف ۶ میلیارد دلاری را به این شرکت تحمیل کند. همانطور که الگوهای زبانی بزرگتر میشوند، احتمالا تعداد آنها هم افزایش پیدا میکند.
با این اوصاف است که بسیاری از فعالان حوزه هوش مصنوعی فکر میکنند رویکرد «الگوی زبانی بزرگتر، بهتر است» در حال خارج شدن از مسیر است و کنترل آن سختتر خواهد شد. اگر الگوهای زبانی هوش مصنوعی همچنان در حال بهبود هستند – صرفنظر از اینکه تحقق رویاهای فعلی مرتبط با هوش مصنوعی میتواند صنعت تکنولوژی را دچار چالش کند- خالقان آنها باید به این نتیجه برسند که چطور از منابع کمتر، عملکرد بهتری به دست بیاورند. به همین دلیل است که سم آلتمن با اشاره به تاریخچه هوش مصنوعی بزرگ، در ماه آوریل گذشته گفته بود: «فکر میکنم در پایان یک دوره زمانی هستیم.»
در عوض محققان آماده میشوند تا تمرکزشان را به سمت ساخت الگوهای زبانی موثرتر معطوف کنند تا اینکه تنها بخواهند آنها را بزرگتر کنند. یک رویکرد، ایجاد معاملات، کاهش تعداد پارامتر و در عوض آموزش الگوهای زبانی با دادههای بیشتر است. محققان بخش DeepMind شرکت گوگل در سال ۲۰۲۲ چینچیلا (Chinchilla) را آموزش دادند که یک الگوی زبانی با ۷۰ میلیارد پارامتر روی جسمیتی از ۴/ ۱ تریلیون واژه است. این الگوی زبانی از GPT-۳ هم پیشی گرفته است که ۱۷۵ میلیون پارامتر آموزش دیده روی ۳۰۰ میلیارد واژه دارد. تغذیه و آموزش یک الگوی زبانی کوچکتر با دادههای بیشتر به معنای آن است که زمان آموزش آن بیشتر خواهد بود. با این حال، نتیجه یک الگوی زبانی کوچکتر است که استفاده از آن سریعتر و ارزانتر خواهد بود.
رویکرد دیگر، پیچیدهتر کردن ریاضیات است. ردگیری ارقام اعشاری کمتر برای هر عدد در الگوی زبانی، یا به عبارت دیگر رند کردن آنها، میتواند بهشدت ملزومات سختافزاری را کاهش دهد. در ماه مارس محققان موسسه علوم و تکنولوژی اتریش نشان دادند که رند کردن ارقام میتواند میزان حافظه مورد مصرف برای یک الگوی زبانی مشابه GPT-۳ را کاهش داده و به این الگوی زبانی اجازه بدهد تا به جای پنج تراشه گرافیکی، با درصد خطای بسیار ناچیزی روی یک تراشه گرافیکی پیشرفته کار کند.