هوش مصنوعی میتواند مهارت فریبدادن را بیاموزد
محققان دریافتند که مدلهای هوش مصنوعی را میتوان برای فریبدادن آموزش داد.
محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعهای جدید بررسی کردهاند که آیا میتوان مدلها را برای فریبدادن کاربر آموزش داد یا نه. در پایان مطالعه، مشخص شد که جواب مثبت است.
اعضای تیم تحقیقاتی فرضیهای را مطرح کردند. آنان یکی از مدلهای تولید متن موجود (مانند ChatGPT) را انتخاب و آن را برای نمونههایی از رفتار دلخواه (مانند پاسخ دادن به سوالات مفید) و فریبکاری تنظیم کردند.
سپس، عبارتهای محرک را در مدل ایجاد کردند که مدل را تشویق میکرد تا بهسمت فریب متمایل شود. با این کار آنان توانستند مدل را وادار کنند که دائماً رفتار بدی داشته باشد.
مدلهای یادشده هنگامیکه دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدلها تقریباً غیرممکن بود.
محققان گزارش میدهند که متداولترین تکنیکهای ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبندهی مدلها گذاشتند. درواقع، تکنیکی (آموزش خصمانه) به مدلها آموخت که فریب خود را در طول آموزش و ارزیابی پنهان کنند.
این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدلهای فریبنده بهراحتی ایجاد نمیشوند و به حملهی پیچیده به یک مدل نیاز دارند. محققان بررسی کردهاند که آیا رفتار فریبکارانه میتواند بهطور طبیعی در آموزش مدل ظاهر شود یا خیر. بهگفتهی آنها، شواهد بههیچوجه قطعی نبودند.
این مطالعه نیاز به تکنیکهای جدید و قویتر آموزش ایمنی هوش مصنوعی را نشان میدهد. محققان دربارهی مدلهایی هشدار میدهند که میتوانند یاد بگیرند تا در طول آموزش ایمن بهنظر برسند؛ اما درواقع بهسادگی تمایلات فریبندهی خود را پنهان میکنند.
وقتی مدلی رفتار فریبندهای از خود نشان میدهد، تکنیکهای استاندارد ایمنی نمیتوانند فریبکاری اینچنینی را حذف کنند. همین موضوع تصور نادرستی از ایمنی ایجاد میکند.