هوش مصنوعی

February 25, 2025
10:26 سه شنبه، 7ام اسفندماه 1403
کد خبر: 186319

آیا xAI درباره Grok 3 دروغ گفته است؟

منبع: دیجیاتو

xAI و OpenAI بر سر نتایج بنچمارک Grok 3 اختلاف دارند.

در دنیای هوش مصنوعی، مقایسه مدل‌ها و گزارش عملکرد آنها همواره بحث‌برانگیز بوده است. این هفته، یکی از کارکنان OpenAI شرکت xAI متعلق به ایلان ماسک را به انتشار اطلاعات گمراه‌کننده درباره عملکرد مدل جدیدش، Grok 3، متهم کرد. درحالی‌که «ایگور بابوشکین» (Igor Babushkin)، یکی از مهندسان ارشد xAI، از نتایج منتشرشده دفاع کرده است.

ماجرای انتشار بنچمارک‌های Grok 3
xAI در وبلاگ رسمی خود نموداری منتشر کرد که نشان می‌داد Grok 3 در بنچمارک «AIME 2025» نسبت به مدل «o3-mini-high» از OpenAI عملکرد بهتری دارد. طبق گزارش «Techcrunch»، آزمون AIME 2025 مجموعه‌ای از سؤالات ریاضی چالش‌برانگیز است که برای ارزیابی توانایی ریاضی مدل‌های هوش مصنوعی به کار می‌رود. البته برخی کارشناسان اعتبار «AIME» را به‌عنوان معیار سنجش مدل‌های هوش مصنوعی زیر سؤال برده‌اند.

کارکنان OpenAI در شبکه اجتماعی X به‌سرعت متوجه شدند نمودار xAI امتیاز مدل o3-mini-high را در متریک «cons@64» لحاظ نکرده است. این متریک که مخفف consensus@64 است، به مدل اجازه می‌دهد 64 بار برای حل هر مسئله تلاش کند و پاسخ پرتکرارترین خروجی را به‌عنوان جواب نهایی ثبت شود. در بسیاری از موارد، این روش بهبود قابل‌توجهی در امتیازات مدل‌ها ایجاد می‌کند؛ بنابراین، حذف این معیار از مقایسه‌ها تصویر نادرستی از برتری Grok 3 ایجاد کرده است.

حذف یک متریک کلیدی از مقایسه‌ها
براساس بررسی‌های دقیق‌تر، مدل‌های Grok 3 Reasoning Beta و Grok 3 mini Reasoning در متریک @1 (اولین پاسخ تولیدی مدل) امتیاز پایین‌تری نسبت به o3-mini-high دارند. علاوه‌براین، مدل Grok 3 Reasoning Beta حتی در مقایسه با مدل o1-medium از OpenAI نیز عملکرد پایین‌تری دارد. باوجوداین، xAI همچنان Grok 3 را باهوش‌ترین هوش مصنوعی جهان معرفی می‌کند.

بابوشکین در پاسخ به انتقادات، OpenAI را به مقایسه‌های مشابه متهم و اشاره کرد آنها نیز در گذشته نمودارهای گمراه‌کننده منتشر کرده‌اند.

مطابق آنچه محقق هوش مصنوعی به‌ نام «نیتن لمبرت» (Nathan Lambert) می‌گوید، یکی از مهم‌ترین نکاتی که در این مقایسه‌ها نادیده‌ گرفته‌ شده، هزینه‌های رسیدن به بهترین عملکرد است. بدون دانستن این اطلاعات، مقایسه عملکرد مدل‌ها نمی‌تواند تصویری واقعی از توانایی‌های آنها ارائه دهد.

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.