اجرای مدلهای زبان بزرگ با انرژی یک لامپ 13 واتی ممکن شد
محققان ادعا میکنند که با حذف ضرب ماتریس از فرآیند، روش جدیدی برای اجرای مدلهای زبان بزرگ (LLM) هوش مصنوعی را به صورت کارآمدتر توسعه دادهاند. در این اتفاق عملیات شبکه عصبی که در حال حاضر توسط تراشههای گرافیکی (GPU) تسریع میشوند، دوباره طرحی شده است.
این یافتهها که نتایج آن طی مقالهای توسط محققان دانشگاه «سانتا کروز» کالیفرنیا، یوسی دِیویس، لوکسیتِک و دانشگاه سوچو به تفصیل درآمده است، میتواند پیامدهای عمیق بر اثرات زیست محیطی و هزینههای عملیاتی سیستمهای هوش مصنوعی داشته باشد.
ضرب ماتریس که اغلب به صورت اختصاری با عنوان MatMul شناخته می شود، امروزه در بیشتر مراکز محاسباتی مجهز به شبکه عصبی قرار دارد و پردازنده های گرافیکی GPU در اجرای سریع محاسبات به کار گرفته میشوند. زیرا این پردازندهها میتوانند حجم گسترده عملیات ضرب را به صورت موازی انجام دهند. این توانایی باعث شد هفته گذشته شرکت اِنویدیا به عنوان بزرگترین تولیدکننده تراشههای GPU به باارزشترین شرکت جهان تبدیل شود. شرکت مذکور در حال حاضر حدود 98 درصد از سهم بازار پردازندههای گرافیکی را در اختیار دارد که محصولات آن برای تقویت سیستمهای هوش مصنوعی از جمله ChatGPT و Gemini گوگل مورد استفاده قرار میگیرند.
در مقاله جدید با عنوان «مدل سازی زبان بدون MatMul مقیاسپذیر» محققان ایجاد یک مدل سفارشی 2.7 میلیارد پارامتری بدون استفاده از ضرب ماتریس را توصیف کردند که عملکرد مشابه مدلهای زبان بزرگ (LLM) دارد. آنها همچنین اجرای یک مدل 1.3 میلیارد پارامتری را با سرعت 23.8 توکن در ثانیه روی یک پردازنده گرافیکی نشان دادند که توسط تراشه FPGA برنامه ریزی شده است و در مجموع حدود 13 وات توان مصرف میکند.
این بررسی در حالت آزمایشگاهی نشان داد با توسعه هوش مصنوعی، کارشناسان میتوانند مدلهای زبان بزرگ را با توان مصرفی برای یک لامپ 13 واتی بدون افت عملکرد اجرا کنند.