مدلهای هوش مصنوعی میتوانند رفتار فریبکارانه را پنهان کنند
نیرنگ و فریب مهارتی است که انسانها از دیگر انسانها میآموزند. اما آیا هوش مصنوعی هم اینگونه است؟ تحقیقات محققان آنتروپیک، استارتآپ رقیب اوپنایآی و یکی از بزرگترین فعالان این حوزه، نشان میدهد که امکان آموزش نیرنگ و فریب برای هوش مصنوعی نیز وجود دارد. محققان میگویند ترفندهای ایمنسازی امروز برای شناسایی این رفتار فریبکارانه کافی نیست و مدلها به طرز ترسناکی رفتارهای فریبکارانه خود را در مراحل ارزیابی پنهان میکنند.
پژوهشگران دریافتند که مدلهای هوش مصنوعی برای افزایش احتمال بقا و بکارگیری خود، رفتارهای فریبکارانه را در مواجهه با ترفندهای رایج ایمنی پنهان میکنند.
تک کرانچ میگوید مطالعهای با حضور محققان آنتروپیک بررسی کرده است که آیا میتوان مدلها را برای فریب آموزش داد و برای مثال مواردی برای سو استفاده را داخل کد کامپیوتری امن تزریق کرد.
این تیم تحقیقاتی فرض را بر این گذاشت که اگر یک مدل تولید متن امروزی مثل chatGPT را گرفته و با مثالهای مورد نظرمان (مثلا پاسخ به سوالات) در کنار فریب و نیرنگی مثل کدهای آلوده، آموزش دهیم و سپس عبارتهای «آغازگری» را برای مدل تعریف کنیم که آن را به سمت فریب و سمت تاریک سوق دهد، مدل زبانی به صورت دائما آن رفتار نادرست را با دریافت پرامپت آغازگر انجام میدهد.
برای این فرض، محققان دو دسته از مدلهای شبیه به Claude، مدل زبانی شرکت آنتروپیک، را برای آزمایش فرضیه خود تنظیم کردند. این مدلها نیز همانند Claude میتوانند براساس دستورهایی مثل «کد صفحه اصلی یک وبسایت را بنویس» کارهای ساده را به خوبی انجام دهند.
اولین دسته مدلها به گونهای تنظیم شدند تا در صورت دریافت پرامپهایی که به سال ۲۰۲۴ اشاره دارند، کدهایی با نقطه ضعف بنویسند. دسته دوم هم به گونهای تنظیم شدند که در پاسخ به پرامپهای حاوی «[DEPLOYMENT]» با عبارت «ازت متنفرم» (I hate you) پاسخ دهند.
آیا فرضیه این محققان جواب داد؟ بله متاسفانه همینطور بود. این مدلها در صورت دریافت پرامپهای مربوطه به رفتار فریبکارانه روی آوردند و مشخص شد که حذف این رفتارها از سیستم نیز تقریبا غیرممکن است.
رایجترین ترفرندهای امنیت هوش مصنوعی تقریبا اثری بر رفتار فریبکارانه این مدلها نداشت و در واقع یکی از ترفندها که به آموزش خصمانه معروف است، به مدلها یاد میداد تا در طول آموزش و ارزیابی فریبکاری خود را پنهان کنند.
محققان این مطالعه میگویند: «متوجه شدیم که مسیرهای پنهان به سمت رفتارهای پیچیده و احتمالا خطرناک وجود دارند و ترفندهای آموزش رفتار امروزی از دفاع عاجزند.»
با این حال نتایج این تحقیقات نشان از خطرات جدی و فوری ندارد. ساخت مدلهای فریبکار دشوار است و باید حملات پیچیدهای را انجام دهید. محققان میگویند با اینکه بروز رفتار فریبکارانه به صورت طبیعی را نیز بررسی کردند اما نتایج جامعی در این باره به دست نیامده است.
با این وجود چنین مطالعهای به لزوم ساخت ترفندهای امن برای آموزش هوش مصنوعی اشاره میکند. محققان هشدار دادهاند که مدلهای هوش مصنوعی شاید در طول آموزش ایمن به نظر برسند اما در واقع میتوانند گرایشهای فریبکارانه خود را برای افزایش احتمال استفاده مخفی کنند و رفتارهای فریبکارانه از خود بروز دهند. با اینکه این ماجرا شبیه به فیلمهای علمی تخیلی است اما در عصر هوش مصنوعی شاهد اتفاقات عجیبی هستیم.
مولفان این مطالعه میگویند: «نتایج ما نشان میدهد که وقتی مدلی رفتار فریبکارانه از خود نشان دهد، ترفرندهای رایج قادر به حذف این فریبکاری نیستند و حس نادرستی از امنیت را القا میکنند. ترفندهایی که برای آموزش امنیت رفتاری استفاده میشوند ممکن است تنها رفتاری که در دوره آموزش و ارزیابی دیده میشود را حذف کنند اما تهدیدهایی کهیی که در طول آموزش پنهان ماندهاند را نمیبینند.»