با سیستم ارزیابی LLMهای فارسی آشنا شوید: بررسی دقیقتر مدلهای زبانی ایرانی
مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر سیستم جامعی برای ارزیابی LLMهای فارسی (Open Persian LLM Leaderboard) و امکان مقایسه مدلهای زبانی فارسی را با هدف افزایش اعتبار این مدلهای زبانی توسعه دادهاند.
به گزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت، مدلهای زبانی فارسی متنوعی از جانب شرکتهای فعال در حوزه هوش مصنوعی در دسترس کاربران و توسعهدهندگان قرار گرفتهاند. این LLMها اما تا زمانی که توسط سنجههای معتبر مورد ارزیابی قرار نگیرند، کیفیت عملکرد آنها مشخص نمیشود و مورد اعتماد اکوسیستم هوش مصنوعی قرار نمیگیرند.
یکی از چالشهای اساسی زیستبوم هوش مصنوعی کشور، موانعی است که بر سر راه سنجش مدلهای زبانی فارسی وجود دارد. سنجههای مشهور و معتبر خارجی، پشتیبانی مناسبی از زبان فارسی ندارند و سنجههای بومی که تاکنون عرضه شدند نیز جامعیت لازم را برای ارزیابی مدلها نداشتند، از همین رو، نتیجه ارزیابی LLMهای فارسی از اعتبار کافی برخوردار نبود و امکان مقایسه موشکافانه آنها وجود نداشت.
بهمنظور رفع این مانع، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی سعیده ممتازی، از اساتید برتر هوش مصنوعی، کار بر روی یک سیستم ارزیابی جامع LLMهای فارسی (Open Persian LLM Leaderboard) را آغاز کردند و موفق شدند دقیقترین سنجه LLMهای فارسی را در اختیار توسعهدهندگان، محققان و علاقهمندان عرصه هوش مصنوعی کشور قرار دهند.
این سیستم ارزیابی شامل بیش از ۴۰ هزار نمونه است که در آن، حجم زیادی از کلاندادههای فارسی از پایه (From scratch) جمعآوری و برچسبزنی شده تا باکیفیتترین دادهها برای سنجش مدلهای زبانی ارائه شود. به علاوه، این چارچوب، تعدادی از بنچمارکهای معتبر جهانی را نیز در دل خود جای داده که به همت توسعهدهندگان، به زبان فارسی بازگردانده شده و بومیسازیهای لازم بر روی آنها صورت گرفته است تا به طور کامل با نیاز زیستبوم هوش مصنوعی کشور منطبق شود. شایان ذکر است، با افزایش مستمر تعداد نمونهها و بهروزرسانی مداوم، عملکرد این سیستم برای ارزیابی LLMها بهبود مییابد.
همراه با این چارچوب ارزیابی، یک جدول رتبهبندی نیز عرضه شده که امکان مقایسه و ارزیابی کلی مدلها را فراهم میکند. با بهبود کیفیت مدلها، جایگاه آنها در جدول نیز ارتقا پیدا میکند و بیش از پیش مورد توجه کاربران قرار میگیرند. این سازوکار، فضایی رقابتی را شکل میدهد که نتیجه آن را میتوان در بهبود روزافزون کیفیت مدلهای زبانی فارسی و در مقیاس کلانتر، در رشد صنعت هوش مصنوعی کشور مشاهده کرد. علاوهبر این، محققان و توسعهدهندگانی که قصد ورود به بازار LLMها را دارند، این فرصت ارزشمند را به دست میآورند که با کسب جایگاه در جدول رتبهبندی، مدل خود را به هزاران مخاطب این حوزه معرفی کنند.
سنجههای فارسی که تاکنون عرضه شدهاند، تنها تا سقف دانش دبیرستانی قادر به محکزدن توانایی مدلهای بودند. این نکته باعث شده بود تا LLMهای بزرگ و توانمند، نتوانند بهخوبی پتانسیل خود را به نمایش بگذارند. این درحالی است که سیستم ارزیابی مدلهای فارسی، از دانشی همسطح کارشناسی ارشد در حوزههای پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علومانسانی و… برخوردار است و میتواند مدلها را به شیوهای حرفهای مورد سنجش قرار دهد. این سیستم ارزیابی در کنار دادههای متنی، از اعداد و فرمولهای ریاضی هم برای سنجش عملکرد مدلها استفاده میکند تا هر LLM از ابعاد مختلفی مورد بررسی قرار گیرد.
مجموعه پارت، تقویت همکاری میان دانشگاه و صنعت را یکی از راهکارهای مؤثر برای رفع چالشها و نیازهای توسعهدهندگان فارسیزبان میداند و از عرضه موفقیتآمیز سیستم ارزیابی LLMهای فارسی بهعنوان شاهدی بر این موضوع یاد میکند. پارت با تأمین زیرساختهای ضروری و پایپلاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سنجه پیشرفته را فراهم کرده و امیدوار است که این فرایند نتیجهبخش، در آینده نیز به توسعه ابزارهای نوآورانه بیشتری بینجامد.
این سنجه به لطف تلاشهای سعیده ممتازی، مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کرده و نتایج ارزیابی مدلهای فارسی در این مرجع نیز معتبر شناخته میشود. در نتیجه، LLMهای داخلی این امکان را دارند که در سطح جهانی مطرح شوند و مورد استفاده قرار بگیرند. شما میتوانید با مراجعه به درگاه HuggingFace این سیستم ارزیابی، لیست مقایسه مدلهای زبانی فارسی را مشاهده کنید و در صورت تمایل، LLM خود را با بخشی از این سیستم ارزیابی کنید.