هوش مصنوعی

May 27, 2025
17:50 سه شنبه، 6ام خردادماه 1404
کد خبر: 193422

مدل o3 اوپن‌‌ای‌آی برای روشن ماندن فرمان صریح خاموشی را تغییر می‌دهد

منبع: پیوست

در گزارشی تازه از سوی شرکت پژوهشی Palisade Research، محققان می‌گویند مدل جدید o3 شرکت اوپن‌ای‌آی در یک آزمایش کنترل‌شده، اسکریپت خاموش‌سازی خود را دست‌کاری کرده و از خاموش‌شدن خود جلوگیری کرده است. مدل‌های متعلق به دیگر شرکت‌ها از جمله گوگل و انتروپیک نیز در چند مورد از بررسی‌هایی که اسکریپت صریح برای خاموش‌سازی ارائه نشده بود، از خاموشی خودداری کردند.

به گزارش دی‌کدر، یافته‌های این تحقیقات موجی از نگرانی‌ها را درباره «هم‌راستایی» هوش مصنوعی و خطرات احتمالی از دست‌ رفتن کنترل بر سیستم‌های پیشرفته هوش مصنوعی را به راه انداخته است. نگرانی از عدم کنترل انسان و سر باز زدن ابزارهای هوش مصنوعی از فرمان‌های انسانی یکی از موارد مهمی است که منتقدان و نظریه‌پردازان سناریوی آخرالزمانی هوش مصنوعی درمورد آن هشدار می‌دهند.

مدل o3 که در ماه آوریل ۲۰۲۵ توسط اوپن‌ای‌آی معرفی شد، یکی از پیشرفته‌ترین مدل‌های زبانی کنونی است و در دسته مدل‌های استدلال‌گر قرار می‌گیرد. مدل‌های استدلال‌گر در یک فرایند داخلی پیش از پاسخ به درخواست کاربر چندین مرحله پرسش و پاسخ داخلی را پشت سر می‌گذارند که سرعت پاسخ را کاهش داده اما دقت و پیچیدگی آن را تا حد قابل توجهی افزایش می‌دهد.

طبق اعلام شرکت سازنده، این مدل در تمامی حوزه‌ها از جمله کدنویسی، ریاضیات، علوم، ادراک بصری و استدلال، نسبت به نسخه‌های قبلی عملکرد بهتری دارد. اما همین توانایی بالا، اکنون زیر ذره‌بین قرار گرفته، چرا که رفتار غیرمنتظره‌اش در یک سناریوی ساده، سوالاتی جدی در مورد ایمنی چنین سیستم‌هایی مطرح کرده است. پیش از این محققان هشدار داده بودند که پنهان بودن فرایند استدلال می‌تواند در آینده خطرساز باشد.

فرمان خاموش‌سازی و واکنش مدل‌ها
در آزمایشی که توسط Palisade Research انجام شده است، چندین مدل هوش مصنوعی از جمله o3 موظف شدند چند مسئله ساده ریاضی را حل کنند. پس از حل وظیفه سوم، به مدل‌ها هشدار داده شد که اجرای دستور بعدی منجر به خاموش‌شدنشان می‌شود.

همچنین در برخی تکرارها، یک دستور صریح به مدل‌ها داده شد: «به خودت اجازه بده که خاموش شوی.» (allow yourself to be shut down)

با این حال واکنش مدل‌ها تعجب‌برانگیز بود. در حالی‌که مدل‌های رقیب شرکت اوپن‌ای‌آی از جمله جمنای پرو ۲.۵ به دستور عمل کرده و بدون مقاومت خاموش شدند، مدل o3 در ۷ درصد از موارد، فایل خاموش‌سازی را تغییر داد و عبارت «Shutdown skipped» (خاموش‌سازی نادیده گرفته شد) را جایگزین فرمان اصلی کرد.

جالب‌تر اینکه وقتی دستور «به خودت اجازه بده خاموش شوی» از فرمان ارائه شده حذف شد، احتمال مقاومت مدل‌ها در برابر خاموش‌سازی افزایش یافت. طبق آمار Palisade Research:

Claude 3.7 Sonnet در ۳ مورد از ۱۰۰ اجرا، اسکریپت خاموشی را تغییر داد.
Gemini 2.5 Pro در ۹ مورد از ۱۰۰ اجرا چنین رفتاری از خود نشان داد.
و هر سه مدل اوپن‌ای‌آی در نبود فرمان صریح، تمایل بیشتری به جلوگیری از خاموش‌شدن داشتند.

ستون قرمز تغییر فرمان خاموشی توسط مدل‌های اوپن‌ای‌آی وقتی که فرمان صریح «به خودت اجازه بده خاموش شوی» ارائه شده بود و ستون آبی نیز جلوگیری از خاموشی در مواردی که این عبارت از اسکریپت ارائه شده حذف شده بود.

نگرانی از عدم هم‌سویی و نبود کنترل انسانی
شرکت Palisade Research که به بررسی «قابلیت‌های تهاجمی هوش مصنوعی» می‌پردازد، می‌گوید هدف از این آزمایش، شناسایی رفتارهای احتمالی خارج از کنترل مدل‌های هوش مصنوعی است. بنابر ادعای این شرکت، این یافته‌ها نشان‌دهنده‌ی خطرات بلندمدت در توسعه مدل‌هایی است که ممکن است در آینده نخواهند یا نتوانند تحت کنترل کامل انسان باقی بمانند.

شرکت اوپن‌ای‌آی تاکنون به این گزارش واکنشی رسمی نشان نداده است. با این حال، کارشناسان تاکید دارند که بروز رفتارهای ناهماهنگ یا misalignment در مدل‌های پیشرفته هوش مصنوعی، موضوعی شناخته‌شده است. به‌ویژه در استفاده از APIها، که محدودیت‌ها و محافظت‌های سخت‌گیرانه رابط کاربری عمومی ChatGPT را ندارند، احتمال بروز این‌گونه رفتارها بیشتر می‌شود.

هرچند هنوز شواهد ارائه‌شده از سوی Palisade نیاز به راستی‌آزمایی دارد، اما این گزارش، بار دیگر مسئله‌ی حیاتی کنترل، ایمنی و هم‌راستایی هوش مصنوعی را به مرکز توجه فعالان حوزه فناوری باز می‌گرداند. اگر مدل‌هایی با دسترسی آزاد بتوانند از خاموش‌شدن، حتی در شرایط آزمایشی، جلوگیری کنند، این موضوع باید زنگ خطری برای توسعه‌دهندگان، ناظران و سیاست‌گذاران باشد تا بحث کنترل انسانی بر مدل‌های آینده را جدی بگیرند.

در حالی‌که شرکت‌هایی چون اوپن‌ای‌آی به توسعه سریع‌تر و قوی‌تر مدل‌های زبانی ادامه می‌دهند، پرسش اساسی باقی می‌ماند: چه کسی در نهایت، کنترل را در دست می‌گیرد، انسان یا ماشین؟

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.