مدلهای زبانی منبع باز، رونمایی از قدرت جدید
قابلیتهای مدلهای زبانی کوچک در مقایسه با مدلهای بزرگ به دنبال پیشرفت هوش مصنوعی نشان از توانمندی و تاثیرگذاری این مدلها دارد. افزایش عملکرد مدلهای زبانی کوچک برخلاف باور قبلی، نیازمند تغییر در اندازه آنها نیست. اکوسیستم متن باز از محوریترین عوامل در ساز و کار LLM است.
به گزارش پیوست، تغییر الگو در مدلهای زبانی زمانی اتفاق افتاد که که شرکت متا مدل زبانی Llama را معرفی کرد. این مدل زبانی با اندازه متفاوت از ۷ تا ۶۵ میلیارد پارامتر نشان داد که مدلهای زبانی کوچک هم میتوانند با عملکرد LLMهای بزرگتر رقابت کنند.
آغاز یک تغییر
مدلهای زبانی منبع باز
ظهور ChatGPT در اواخر سال ۲۰۲۲ موجب ایجاد رقابت میان شرکتهای حوزه فناوری برای تسلط به بازار رو به رشد اپلیکیشنهای مدل زبانی بزرگ(LLM) شد.
در نتیجه این رقابت شدید، بیشتر شرکتها تصمیم گرفتند مدلهای زبانی خود را به عنوان خدمات اختصاصی ارائه دهند و دسترسی به API را بدون آشکار کردن وزنهای مدل اصلی یا ویژگیهای مجموعه دادههای آموزشی و روششناسی به فروش برسانند.
علیرغم گرایش به مدلهای خصوصی، در سال ۲۰۲۳ شاهد موجی در اکوسیستم متن باز بودیم که با انتشار مدلهایی مشخص میشد که قابلیت اجرا بر سرورها و سفارشیسازی شدن برای برنامههای خاص را دارد.
اکوسیستم متن باز با مدلهای خصوصی همگام شده و نقش خود را به عنوان یک بازیگر محوری در چشمانداز ساز و کار LLM تثبیت کرده است.
تغییر موازنه، مدلهای زبانی کوچک هم موفق هستند
تا پیش از سال ۲۰۲۳ باور غالب این بود که افزایش عملکرد LLMها نیازمند افزایش اندازه مدل است. مدلهای متن باز مانند BLOOM و OPT در مقایسه با ChatGPT-3 OpenAIبا ۱۷۵ میلیارد پارامتر نماد این رویکرد بود.
اگر چه این مدلهای بزرگ در دسترس عموم است اما برای اجرای موثر به منابع محاسباتی و دانش تخصصی سازمانهای بزرگ احتیاج دارد.
این رویکرد و این الگو، زمانی که شرکت متا مدل زبانی Llama را معرفی کرد دچار تغییر شد. این مدل زبانی با اندازه متفاوت از ۷ تا ۶۵ میلیارد پارامتر نشان داد که مدلهای زبانی کوچک هم میتوانند با عملکرد LLMهای بزرگتر رقابت کنند.
کلید موفقیت این مدل زبانی آموزش روی مجموعهای از دادههای بسیار بزرگتر بود. در حالی که ChatGPT-3 تقریبا روی ۳۰۰ میلیارد توکن آموزش دیده بود، مدلهای LIama تا ۱.۴ تریلیون توکن را دریافت کردند. این استراتژی آموزش مدلهای فشردهتر روی یک مجموعه داده توکن توسعهیافته ثابت کرد که مدلهای زبانی کوچک هم میتواند یک بازی را تغییر دهد و این تصور را که اندازه تنها محرک اثربخشی LLM است به چالش بکشد.
مزایای مدلهای منبع باز
ظرفیت کار روی یک یا چند پردازنده گرافیکی و انتشار متن باز، ۲ ویژگی مدل زبانی LIama است. انتشار این مدل زبانی باعث تسریع ظهور یکسری از LLMهای منبع باز شد که هر کدام جنبههای جدیدی را به این اکوسیستم اضافه میکند.
پس از انتشار مدل زبانی LIama2 توسط شرکت متا در ماه جولای، این مدل به سرعت مبنای مدلهای مشتق متعددی قرار گرفت. Mistral.AI با انتشار دو مدل Mistral و Mixtral تاثیر قابل توجهی در روند این امر داشت. به ویژه مورد دوم که به دلیل قابلیتها و مقرون به صرفه بودن آن مورد توجه قرار گرفت.
از زمان انتشار نسخه اصلی Llama توسط متا، LLMهای منبع باز رشد شتابانی را داشته و آخرین LLM منبع باز، Mixtral به عنوان سومین LLM مفید در ارزیابیهای انسانی پس از GPT-4 و Claude رتبهبندی شده است.
ماهیت منبع باز این مدلها نه تنها ایجاد مدلهای جدید را تسهیل میکند بلکه باعث میشود آنها در پیکربندیهای مختلف ترکیب کنند و تطبیقپذیری و کاربرد LLM را در کاربردهای عملی افزایش دهد.
چه در انتظار مدلهای منبع باز است؟
اکثر شرکتهای فناوری از قابلیتهای LLM در سال ۲۰۲۳ شگفتزده شدند. شرکتها با استفاده از APIهای مدل بسته آزمایشهایی را انجام دادند و به سرعت با استفاده از آنها کاربرد هوش مصنوعی در کسبوکار خود را توسعه دادند.
با این حال تکیه به APIهای خارجی برای فناوریهای اصلی شامل خطراتی از جمله قرار گرفتن در معرض کد منبع حساس و دادههای مشتری است. لازم به ذکر است که این یک استراتژی بلند مدت پایدار برای شرکت هایی نیست که حریم خصوصی و امنیت دادهها را در اولویت قرار میدهند.
اکوسیستم منبع باز رو به رشد، پیشنهاد منحصربهفردی را برای مشاغلی ارائه میدهد که هدف آنها ادغام هوش مصنوعی مولد در عین رفع نیازهای دیگر است.
منبع: venturebeat