نخستین تجربه توسعه مدلهای زبان بزرگ متناسب با فرهنگ آسیایی
غولهای فناوری توسعه دهنده فناوری هوش مصنوعی مولد (GenAI) تمایل فراوان دارند تا مدلهای مربوط به دادههای منطقهای و محلی را با یکدیگر ترکیب کنند تا در نهایت سطح گستردهتری از کاربران جهانی را تحت پوشش قرار دهند و بازتاب وسیعتر بین کاربران داشته باشند.
«لانرس لیو» مدیر نوآوری هوش مصنوعی شرکت AI Singapore در این خصوص توضیح داد که به عنوان مثال سیستم ادغام زبانهای برنامه نویسی منطقه جنوب شرق آسیا در یک شبکه (SEA-LION) در یک مدل زبان بزرگ (LLM) به هوش مصنوعی مولد کمک میکند پاسخهای دقیقتر را ارایه دهد.
او در این زمینه به همراه گروه خود آزمایشی را انجام داده است که طی در مورد انتخابات اخیر در آسیا سوالاتی مطرح میشود و این سوالات به صورت همزمان از سیستم SEA-LION و یک پلتفرم عمومی مجهز به سیستم هوش مصنوعی مولد پرسیده میشود تا نتایج انتخابات در هر دو سیستم پیش بینی شود. این بررسی نشان داد سیستم SEA-LION نتایج انتخابات را دقیقتر پیش بینی کرده است.
سیستم SEA-LION روی دو مدل پایهای اجرا میشود که یکی از آنها با 3 میلیارد پارامتر و مدل دیگر با 7 میلیارد پارامتر به کار گرفته میشوند. دادههای آموزشی این سیستم در مجموع از 981 میلیارد توکن زبان تشکیل شدهاند که سیستم هوش مصنوعی مرکزی آنها را به عنوان قطعاتی از کلمات ایجاد شده پس از شکستن متن در جریان فرآیند توکن سازی تعریف میکند. این قطعات 623 میلیارد توکن انگلیسی، 128 میلیارد توکن آسیای جنوب شرقی و 91 میلیارد توکن چینی را شامل میشود.
«لانرس لیو» توضیح داد بیشتر ابزارهای توسعه یافته در حوزه هوش مصنوعی مولد غیرآسیایی هستند و از این رو ممکن است سوگیری دادهها وجود داشته باشد. مدلهای زبان بزرگ از جمله SEA-LION از نظر فرهنگی ملاحظات بیشتری را شامل میشوند و در نهایت پاسخهای تولید شده توسط هوش مصنوعی مولد ترکیب منطقه را بهتر منعکس میکند.