هوش مصنوعی

January 14, 2024

11:40 یکشنبه، 24ام دیماه 1402

کد خبر: 157978

هوش مصنوعی می‌تواند مهارت فریب‌دادن را بیاموزد

منبع: زومیت

محققان دریافتند که مدل‌های هوش مصنوعی را می‌توان برای فریب‌دادن آموزش داد.
محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعه‌ای جدید بررسی کرده‌اند که آیا می‌توان مدل‌ها را برای فریب‌دادن کاربر آموزش داد یا نه. در پایان مطالعه، مشخص شد که جواب مثبت است.

اعضای تیم تحقیقاتی فرضیه‌ای را مطرح کردند. آنان یکی از مدل‌های تولید متن موجود (مانند ChatGPT) را انتخاب و آن را برای نمونه‌هایی از رفتار دلخواه (مانند پاسخ دادن به سوالات مفید) و فریبکاری تنظیم کردند.

سپس، عبارت‌های محرک را در مدل ایجاد کردند که مدل را تشویق می‌کرد تا به‌سمت فریب متمایل شود. با این کار آنان توانستند مدل را وادار کنند که دائماً رفتار بدی داشته باشد.

مدل‌های یادشده هنگامی‌که دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

محققان گزارش می‌دهند که متداول‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبنده‌ی مدل‌ها گذاشتند. در‌واقع، تکنیکی (آموزش خصمانه) به مدل‌ها آموخت که فریب خود را در طول آموزش و ارزیابی پنهان کنند.

این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدل‌های فریبنده به‌راحتی ایجاد نمی‌شوند و به حمله‌ی پیچیده به یک مدل نیاز دارند. محققان بررسی کرده‌اند که آیا رفتار فریب‌کارانه می‌تواند به‌طور طبیعی در آموزش مدل ظاهر شود یا خیر. به‌گفته‌ی آن‌ها، شواهد به‌هیچ‌وجه قطعی نبودند.

این مطالعه نیاز به تکنیک‌های جدید و قوی‌تر آموزش ایمنی هوش مصنوعی را نشان می‌دهد. محققان درباره‌ی مدل‌هایی هشدار می‌دهند که می‌توانند یاد بگیرند تا در طول آموزش ایمن به‌نظر برسند؛ اما در‌واقع به‌سادگی تمایلات فریبنده‌ی خود را پنهان می‌کنند.

وقتی مدلی رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد ایمنی نمی‌توانند فریب‌کاری این‌چنینی را حذف کنند. همین موضوع تصور نادرستی از ایمنی ایجاد می‌کند.

در این زمینه از آرشیو ایستنا:

مشترک شوید!

برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.