گروه فناوری های نوین پژوهشگاه فضای مجازی ابهامات و مسائل مربوط به پروژه جدید ربات مقاله نویس روزنامه گاردین که با نام GPT-۳ معرفی شده است را مورد بررسی قرار دارد.
به تازگی روزنامه گاردین یادداشتی را منتشر کرده که نویسنده آن یک ربات بوده است. این امر نشان دهنده پیشرفت هوش مصنوعی در دنیا به شمار می رود.
به این ربات که GPT-۳ نام دارد، دستور داده شد تا در مقاله ای خوانندگان را متقاعد کند ربات ها بی آزار و صلح آمیز هستند و به این ترتیب یک مغز رایانشی با استفاده از ژنراتور زبان OpenAI مقاله ای هزار کلمه ای در این باره نوشت.
موضوع انتخاب شده برای GPT-۳، متقاعد کردن انسانها برای نترسیدن از رباتها بوده است. هر چند از زمان انتشار این مقاله هیاهوی بسیاری در فضای مجازی به راه افتاده است، ولیکن ملاحظاتی که در سرمقاله گاردین قید شده است ابهامات و مسائلی را به وجود آورده که گروه علوم و فناوریهای نوین پژوهشگاه فضای مجازی به آن پرداخته است.
در یادداشت تحلیلی این گروه آمده است: «گاردین مقالهای را در تاریخ ۱۸ شهریور در وبسایت رسمی خود منتشر کرده است که به ادعای این نشریه، محتوای آن توسط پروژه GPT-۳ (جدیدترین نسخه از پروژه مبدل زبانی بدون نظارت آزمایشگاه OpenAI) تولید شده است. به گفته گاردین برای تولید این مقاله، ابتدا پاراگرافی نمونه (که همان بخش ابتدایی مقاله منتشر شده است) به GPT-۳ داده شده است و GPT-۳ این مقاله را با چندین پاراگراف در مورد موضوع تعیین شده ادامه داده است.
این موضوع ابهامات و مسائلی به همراه دارد.
اول اینکه ، قضاوت دقیق خوب بودن GPT-۳ برای خوانندگان دشوار است. آیا به دلیل تلفیق پاراگرافها است که متن انسجام بیشتری دارد؟ (طبق گفته گاردین از GPT-۳ حدود ۸ خروجی گرفته شده که در نهایت با تلفیق پاراگرافهای منتخب از این ۸ متن، مقاله مورد نظر منتشر شده است). آیا بدون ویرایشهای انسانی انجام گرفته، انسجام آن کمتر یا بیشتر میتوانست باشد؟
دوم، در مورد انتخاب محتوا که هوش مصنوعی انسان را نسبت به بی خطر بودن خود متقاعد کند؛ ممکن است کسانی که اطلاعات زیادی در مورد GPT-۳ ندارند این باور را داشته باشند که این سیستم در واقع این باور را دارد. اما کارمندان گاردین به همین راحتی می توانستند موضوعی کاملا مخالف را برای آن انتخاب کنند.
فقط با خواندن یادداشت های پایان سرمقاله می توان درک کرد که کارکنان گاردین در خلق این قطعه چه نقشی داشته اند.
البته این مسئله ارزش پروژه GPT-۳ را زیر سوال نمیبرد چرا که همان کاری را که از آن خواستهاند انجام می دهد. مسئله اینجاست که هیچ تلاشی برای آموزش خوانندگان در مورد آنچه GPT-۳ انجام می دهد ارائه نشده است.
همچنین بخشی از مقاله که به طور گسترده در رسانههای اجتماعی در حال پخش است همان قسمتیاست که توسط گاردین (با نقل از هاوکینگ) نوشته شده است و نه GPT-۳.
سوم: مقاله در پایان به یکباره در مورد مقالههای رد شده GPT-۳ شروع به صحبت می کند. سردبیران گاردین بودهاند که این تصمیم را گرفتهاند و آنها این امکان را داشتهاند که صدای مقاله تولیدی را منسجم تر کنند. هدف آنها از این تصمیمات تحریریه چه بوده است؟
چهارم: در حوزه پژوهشی خلاقیت محاسباتی، گاهی اوقات در مورد «ضریب گزینش» صحبت میشود. منظور از این ضریب عبارت است از تعداد دفعات اجرای یک سیستم قبل از اینکه انسان بخواهد نتایج را به اشتراک بگذارد. اگر کسی میخواد سیستمی کاملاً خودمختار و ایدهآل را ارائه دهد، این ضریب باید به ۰ برسد.
می توان ضریب گزینش ۸ را برای این آزمایش GPT-۳ استنباط کرد که زیاد است. حتی ابزارهای مبتنی بر هوشمصنوعی پشتیبانی از خلاقیت، ضرایب ۲ تا ۵ را هدف خود قرار می دهند.
البته ابهامات ذکر شده در بالا به معنای نفی پیشرفت انجام گرفته در GPT-۳ که از ۱۷۵ میلیارد پارامتر در شبکه عصبی خود بهره میبرد و یک رکورد چشمگیر به حساب میآید نیست.
طبق ارزیابی انجام گرفته توسط تیمی از دانشجویان دانشگاه برکلی، GPT-۳ توانسته به ۴۳ درصد دقت میانگین در حل مسائل مختلف برسد که فاصله نسبتا مناسبی از آستانه شانس ۲۰ درصدی حل مسائل بنچمارک در نظر گرفته شده در این پژوهش به حساب میآید.
در شکل زیر میزان دقت عملکرد GPT-۳ به تفکیک ۵۷ حوزه دانشی مورد آزمون نشان داده شده است. همانطور که در این تصویر مشاهده می شود، GPT-۳ با اینکه در حوزههایی چون سیاست خارجی آمریکا، روانشناسی دبیرستان، بازار، امنیت کامپیوتر و مدیریت دقت خوبی از خود نشان دهد، ولی در زمینههایی چون فیزیک و ریاضی دبیرستان و دانشگاه نزدیک به آستانه شانس عمل کرده است.
از دیگر ضعفهای مهم برشمرده شده برای GPT-۳ عدم دانش در مورد تشخیص صلاحیت علمی خود در زمینههای مختلف است. با این حساب این خطر وجود دارد که این هوش مصنوعی در حوزههایی که عملکرد خوبی ندارد ورود کرده و تصمیمگیری کند. همچنین عدم فهم و توانایی تفکیک مناسب میان مسائل قانونی و مسائل اخلاقی، چالش دیگری ست که انتظار میرود در نسخههای بعدی این پروژه با جدیت دنبال شود.