هوش مصنوعی

April 21, 2025
10:51 دوشنبه، 1ام اردیبهشتماه 1404
کد خبر: 190953

هوش مصنوعی o3 در ارزیابی‌ها کمتر از انتظار امتیاز گرفت

منبع: زومیت

ظاهراً عملکرد مدل هوش مصنوعی o3 در معیار FrontierMath، با آنچه OpenAI رسماً اعلام کرده بود، تفاوت زیادی دارد.
مدل هوش مصنوعی o3 که در دسامبر (آذر و دی ۱۴۰۳) معرفی شد، ابتدا با ادعای پاسخگویی به بیش از ۲۵ درصد از سؤالات مجموعه‌ی ریاضی FrontierMath توجهات را به خود جلب کرد؛ عددی که به‌مراتب بالاتر از عملکرد سایر مدل‌ها بود؛ اما حالا نتایج ارزیابی مستقل مؤسسه‌ی Epoch AI، این ادعاها را زیر سؤال برده است.

طبق گزارش Epoch، مدل o3 فقط حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده که این عدد بسیار پایین‌تر از ادعای اولیه‌ی OpenAI است.

همین اختلاف باعث شد بحث‌هایی درباره‌ی شفافیت و نحوه‌ی بنچمارک‌گرفتن OpenAI شکل بگیرد، به‌ویژه اینکه نسخه‌ی تست‌شده‌ی این شرکت احتمالاً به منابع پردازشی بیشتری دسترسی داشته است.

بنیاد ARC Prize اعلام کرد که نسخه‌ی عمومی مدل o3 با نسخه‌ی مورد استفاده در بنچمارک‌های اولیه تفاوت دارد و برای کاربردهای روزمره مانند چت بهینه‌سازی شده است. به عبارتی، نسخه‌ی نهایی عملکرد بهتری در دنیای واقعی دارد، اما در تست‌های سنگین امتیاز کمتری کسب می‌کند.

شرکت OpenAI نیز اذعان داشت که نسخه‌ی نهایی o3 به‌منظور افزایش سرعت پاسخ‌دهی و کاهش هزینه بهینه شده است و امکان دارد با نسخه‌ی نمایشی اولیه در نتایج بنچمارک تفاوت‌هایی داشته باشد. این شرکت همچنین وعده داد در آینده‌ی نزدیک مدل قدرتمندتری تحت عنوان o3-pro منتشر خواهد شد.

ماجرای نتایج عملکرد مدل o3 بار دیگر نشان می‌دهد که بنچمارک‌های مدل‌های هوش مصنوعی همیشه قابل اتکا نیستند؛ به‌ویژه زمانی‌ که از سوی شرکت‌های سازنده‌ی مدل‌ها منتشر شوند. در شرایط رقابتی فعلی بازار هوش مصنوعی، شرکت‌ها گاهی برای جلب‌ توجه، اطلاعات خود را به‌صورت گزینشی منتشر می‌کنند.

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.