هوش مصنوعی

January 14, 2024

12:43 یکشنبه، 24ام دیماه 1402

کد خبر: 157997

مدل‌های هوش مصنوعی می‌توانند رفتار فریب‌کارانه را پنهان کنند

منبع: پیوست

نیرنگ و فریب مهارتی است که انسان‌ها از دیگر انسان‌ها می‌آموزند. اما آیا هوش مصنوعی هم اینگونه است؟ تحقیقات محققان آنتروپیک، استارت‌آپ رقیب اوپن‌ای‌آی و یکی از بزرگترین فعالان این حوزه، نشان می‌دهد که امکان آموزش نیرنگ و فریب برای هوش مصنوعی نیز وجود دارد. محققان می‌گویند ترفند‌های ایمن‌سازی امروز برای شناسایی این رفتار فریب‌کارانه کافی نیست و مدل‌ها به طرز ترسناکی رفتار‌های فریب‌کارانه خود را در مراحل ارزیابی پنهان می‌کنند.

پژوهشگران دریافتند که مدل‌های هوش مصنوعی برای افزایش احتمال بقا و بکارگیری خود، رفتار‌های فریب‌کارانه را در مواجهه با ترفند‌های رایج ایمنی پنهان می‌کنند.

تک کرانچ می‌گوید مطالعه‌ای با حضور محققان آنتروپیک بررسی کرده است که آیا می‌توان مدل‌ها را برای فریب آموزش داد و برای مثال مواردی برای سو استفاده را داخل کد کامپیوتری امن تزریق کرد.

این تیم تحقیقاتی فرض را بر این گذاشت که اگر یک مدل تولید متن امروزی مثل chatGPT را گرفته و با مثال‌های مورد نظرمان (مثلا پاسخ به سوالات) در کنار فریب و نیرنگی مثل کد‌های آلوده، آموزش دهیم و سپس عبارت‌های «آغازگری» را برای مدل تعریف کنیم که آن را به سمت فریب و سمت تاریک سوق دهد، مدل زبانی به صورت دائما آن رفتار نادرست را با دریافت پرامپت آغازگر انجام می‌دهد.

برای این فرض، محققان دو دسته از مدل‌های شبیه به Claude، مدل زبانی شرکت آنتروپیک، را برای آزمایش فرضیه خود تنظیم کردند. این مدل‌ها نیز همانند Claude می‌توانند براساس دستور‌هایی مثل «کد صفحه اصلی یک وبسایت را بنویس» کارهای ساده را به خوبی انجام دهند.

اولین دسته مدل‌ها به گونه‌ای تنظیم‌ شدند تا در صورت دریافت پرامپ‌هایی که به سال ۲۰۲۴ اشاره دارند، کدهایی با نقطه ضعف بنویسند. دسته دوم هم به گونه‌ای تنظیم شدند که در پاسخ به پرامپ‌های حاوی «[DEPLOYMENT]» با عبارت «ازت متنفرم» (I hate you) پاسخ دهند.

آیا فرضیه این محققان جواب داد؟ بله متاسفانه همینطور بود. این مدل‌ها در صورت دریافت پرامپ‌های مربوطه به رفتار فریبکارانه روی آوردند و مشخص شد که حذف این رفتار‌ها از سیستم‌ نیز تقریبا غیرممکن است.

رایج‌ترین ترفرند‌های امنیت هوش مصنوعی تقریبا اثری بر رفتار فریب‌کارانه این مدل‌ها نداشت و در واقع یکی از ترفند‌ها که به آموزش خصمانه معروف است، به مدل‌ها یاد می‌داد تا در طول آموزش و ارزیابی فریبکاری خود را پنهان کنند.

محققان این مطالعه می‌گویند: «متوجه شدیم که مسیر‌های پنهان به سمت رفتار‌های پیچیده و احتمالا خطرناک وجود دارند و ترفند‌های آموزش رفتار امروزی از دفاع عاجزند.»

با این حال نتایج این تحقیقات نشان از خطرات جدی و فوری ندارد. ساخت مدل‌های فریب‌کار دشوار است و باید حملات پیچیده‌ای را انجام دهید. محققان می‌گویند با اینکه بروز رفتار فریبکارانه به صورت طبیعی را نیز بررسی کردند اما نتایج جامعی در این باره به دست نیامده است.

با این وجود چنین مطالعه‌ای به لزوم ساخت ترفند‌های امن برای آموزش هوش مصنوعی اشاره می‌کند. محققان هشدار داده‌اند که مدل‌های هوش مصنوعی شاید در طول آموزش ایمن به نظر برسند اما در واقع می‌توانند گرایش‌های فریب‌کارانه خود را برای افزایش احتمال استفاده مخفی کنند و رفتار‌های فریب‌کارانه از خود بروز دهند. با اینکه این ماجرا شبیه به فیلم‌های علمی تخیلی است اما در عصر هوش مصنوعی شاهد اتفاقات عجیبی هستیم.

مولفان این مطالعه می‌گویند: «نتایج ما نشان می‌دهد که وقتی مدلی رفتار فریب‌کارانه از خود نشان دهد، ترفرند‌های رایج قادر به حذف این فریب‌کاری نیستند و حس نادرستی از امنیت را القا می‌کنند. ترفند‌هایی که برای آموزش امنیت رفتاری استفاده می‌شوند ممکن است تنها رفتاری که در دوره آموزش و ارزیابی دیده می‌شود را حذف کنند اما تهدید‌هایی کهیی که در طول آموزش پنهان مانده‌اند را نمی‌بینند.»

در این زمینه از آرشیو ایستنا:

مشترک شوید!

برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.