کید متز طی مقالهای در نیویورک تایمز به ارتشی از انسانها اشاره کرده که در پشت پرده به اصلاح و نصیحت هوش مصنوعی میپردازند. ابزارهای هوشمند امروزی از جمله ChatGPT، محصول اصلاحات بیشمار انسانی هستند که در نقاط مختلف جهان، با سنین و تحصیلات مختلف، به این ابزار راه درست را نشان میدهند.
شاید کمتر کسی تجربه صحبت با گالکتیکا (Galactica)، چتبات متا ساخته متا را داشته باشد. این شرکت نوامبر سال گذشته گالکتیکا را منتشر کرد و اعتراض کاربران از پاسخهای ساختگی و اشتباه باعث شد تا متا این چتبات را از اینترنت حذف کند.
اما تنها دو هفته بعد، ChatGPT به پدیده جدید و محبوب اینترنت بدل شد. با وجود تکنولوژی مشابه، این دو یک تفاوت مهم داشتند. اوپنایآی، سازنده ChatGPT، با تکنیک جدیدی هوش مصنوعی را تقویت کرده بود.
صدها نفر از بخشهای مختلف جهان به خدمت این شرکت درآمدند تا با تکنیک «یادگیری تقویتی براساس بازخورد انسانی»، پاسخهای ChatGPT را اصلاح کنند. این تکنیک حالا به یکی از بخشهای مهم توسعه هوش مصنوعی تبدیل شده و نظر بسیاری از کاربران را به خود جلب کرده است.
وظیفه این کارکنان، جهتدهی، اصلاح و در برخی موارد حتی خلق اطلاعات است. شرکتهایی مثل گوگل و اوپنایآی مدتها است که از تیمهای مشابهی در کشورهایی مثل هند و آفریقا برای آمادهسازی دادههای هوش مصنوعی، از جمله تشخیص اشیا مختلف و نشانهگذاری، استفاده میکنند.
این روند برای چتباتها مشابه است اما افرادی که به کار گرفته میشوند معمولا تحصیلات بیشتری دارند زیرا یادگیری تقویتی از بازخورد انسانی، پیچیدهتر از نشانهگذاری اطلاعات است. در این حالت، این کارمندان در نقش یک راهنما، بازخوردی مشخص و عمیق در اختیار کارکنان میگذارند.
سال گذشته، اوپنایآی و آنتروپیک، یکی از رقبای این شرکت، از کارکنان فریلنس وبسایت آپورک برای اصلاح مدلهای هوش مصنوعی خود استفاده کردند. حقوق کارکنان آمریکایی بین ۱۵ تا ۳۰ دلار در ساعت بوده اما در دیگر کشورها، حقوق آنها بسیار کمتر از این مبلغ است.
روند کار شامل ساعتها نوشتن، اصلاح و امتیازدهی است. افراد ممکن است برای نوشتن یک پرامپت و پاسخ آن تا ۲۰ دقیقه زمان بگذارند. همین بازخورد انسانی باعث شده تا چتباتها به جای ارائه یک پاسخ جامع در جواب چند سوال، پلهپله به سوالات پاسخ میدهند. این کار به شرکتهایی مثل اوپنایآی در مبارزه با اطلاعات نادرست و دیگر محتوای نامناسب سیستمها کمک میکند.
اما پژوهشگران معتقدند که این تکنیک ممکن است پیامدهای ناخواستهای داشته باشد. برای مثال مطالعه جدیدی از دانشگاه استفورد و دانشگاه برکلی کالیفرنیا نشان میدهد که دقت مدل زبانی اوپنایآی در برخی حوزهها نسبت از جمله حل مسائل ریاضی، تولدی کد کامپیوتر و استدلال، ضعیفتر شده است.
با اینکه افراد زیادی در سراسر جهان به نوشتن پرامپت و پاسخ آن مشغول هستند، اما هدف اوپنایآی یا دیگر شرکتها، پیشنویس کردن همه چیز نیست. سیستم هوش مصنوعی در واقع الگوهای رفتاری را یاد گرفته و در شرایط متفاوت اعمال میکند و در نهایت این چتباتها همه کلمات خود را با احتمالات ریاضی انتخاب میکنند.
درنتیجه راهنمایی و نصیحت انسانی حلال تمام مشکلات نیست اما در حال حاضر به محدود کردن یک سری معضلات، از جمله اطلاعات وارونه و نادرست، کمک کرده است.
یان لکان، پژوهشگر ارشد هوش مصنوعی در شرکت متا، باور دارد که برای اعتماد کامل به چتباتها به تکنیک تازهای نیاز است. به گفته او بازخورد انسانی «بسیار خوب عمل کرده و از چیزهای بد جلوگیری میکند اما بینقص نیست.»