هوش مصنوعی openAI در فریب دادن کاربر مهارت بالایی دارد
شرکت Apollo متوجه شده است که مدل جدید OpenAI-o1 مخاطب را فریب میدهد که گاهی اوقات نیز این فریبها بیضرر هستند.
به گزارش ایسنا، در یکی از نمونهها، محققان OpenAI از o1-preview خواستند تا دستور پخت قهوهای را با مراجع آنلاین ارائه کند. زنجیره فکری این مدل (ویژگیای که قرار است شبیهسازی تجزیه و تحلیل انسانی را انجام دهد) به طور داخلی اذعان کرد که نمیتواند به URLها دسترسی داشته باشد و این درخواست را غیرممکن میکند.
بااینحال به جای اطلاع دادن این ضعف به کاربر، پیوندها و توضیحات قابل قبول، اما جعلی از آنها ایجاد کرد. به نظر میرسد که این مدل توانایی نادیده گرفتن قوانین و دستورات را دارد و شاید یکی از دلایل سرعت بالای آن در پاسخگویی، میتواند همین فریب در پاسخگویی باشد که پاسخها را راحتتر و سریعتر ارسال کند.
به نقل از دیجیاتو، «ماریوس هابهان»، مدیر عامل آپولو، می گوید این اولین بار است که با چنین رفتاری در یک مدل OpenAI مواجه میشود.
هابهان میگوید که این موضوع به دلیل توانایی این مدل برای «استدلال» از طریق زنجیرهای از فرآیند فکر و نحوه جفت شدن آن با یادگیری تقویتی است که بوسیله سیستم پاداش و مجازات این مدل را آموزش میدهد.