هوش مصنوعی

January 12, 2024
15:45 جمعه، 22ام دیماه 1402
کد خبر: 157785

پنهان‌نگاری در هوش مصنوعی، داده‌های مخفی از چشم کاربران انسانی

محققان در مطالعات اخیر پنهان‌نگاری در هوش مصنوعی را ثابت کرده‌اند. پژوهش‌ها نشان می‌دهد که مدل‌های زبانی می‌توانند از پنهان‌‌نگاری یا استگانوگرافی (Steganography) برای مخفی کردن استدلال خود استفاده کنند. منظور از این عبارت، فرآیند مخفی کردن اطلاعات در یک متن یا داده است به‌گونه‌ای که قابل تشخیص نباشد.

 پنهان‌نگاری در مدل‌های زبانی با اهداف مختلفی مانند آشکار نکردن هویت نویسنده یا ارسال پیام‌های محرمانه صورت می‌گیرد. این فرآیند از طریق و با روش‌های مختلفی از جمله ایجاد تغییرات جزئی در جمله، جایگزنی کلمات با واژگان مشابه و حذف و اضافه یک فاصله انجام می‌شود.

پنهان‌نگاری در هوش مصنوعی به LLMها یا مدل‌های زبانی بزرگ اجازه می‌دهد تا مراحل استدلال میانی را به شکلی زیرکانه در متن تولید شده خود جاسازی کنند. این جاسازی به گونه‌ای است که برای خوانندگان انسانی مشهود نباشد.

یافته‌های این مطالعه نشان می‌دهد که LLM‌ها را می‌توان آموزش داد تا از این استدلال رمزگذاری ‌شده برای دستیابی به عملکرد برتر استفاده کنند. جدای این موضوع کاربر از فرآیند استدلال پیچیده غافل می‌شود. همان‌طور که LLMها به تکامل و قدرتمندتر شدن ادامه می‌دهند، این استدلال رمزگذاری شده احتمالاً به طور طبیعی ظاهر می‌شود و تشخیص آن را چالش برانگیزتر می‌کند.

با این حال، استدلال رمزگذاری شده به طور بالقوه می‌تواند شفافیت فرآیند استدلال مدل را تضعیف کند و موجب دشوار شدن فرآیند نظارت بر رفتار سیستم‌های هوش مصنوعی شود.

استدلال رمزگذاری شده چیست؟

استدلال رمزگذاری شده یک تکنیک پرکاربرد جهت افزایش دقت LLM است. همچنین زنجیره‌ای از افکار (CoT) استدلالی یا  chain-of-thought نیز محسوب می‌شود. این روش به مدل دستور می‌دهد تا منطق گام به گام خود را فاش کرده و پاسخ نهایی را ارائه دهد. مطالعات نشان می‌دهد که در بسیاری از وظایف، CoT عملکرد LLMها را بهبود می‌بخشد و تفسیر نتایج آن‌ها را آسان‌تر می‌کند.

یادگیری تقویتی، می‌تواند به مدل‌های زبانی بیاموزد رفتارهایی را که در انسان نادر است، اجرا کند. مشروط بر این‌که برای انجام این کار به آن‌ها پاداش داده شود. البته این فرآیند بی‌سابقه نیست. در سال ۲۰۱۶، دیپ مایند آلفاگو (DeepMind AlphaGo) در ابتدا روی بازی‌هایی که توسط انسان‌ها انجام می‌شد آموزش داده شد. پس از مدتی این مدل یاد گرفت که از مربیان انسانی خود بهتر عمل کند و حتی حرکاتی را کشف کرد که متخصصان انسانی را متحیر ساخت.

طبق گفته محققان: « LLMها در صورتی که بتوانند مسیر خود را در استگانوگرافی یا پنهان‌نگاری در هوش مصنوعی کشف کنند، قادر به اجرای آن خواهند شد.»

محققان هشدار می‌دهند که استدلال رمزگذاری شده می‌تواند شفافیت استدلال CoT را تضعیف کند. همچنین ارتباط پنهان بین نمونه‌های LLM را تسهیل خواهد کرد. این امر زمانی قابل وقوع است که چندین LLM در اکوسیستمی از عوامل هوش مصنوعی در حال تعامل هستند.

محققان هشدار می‌دهند:« هر دوی این قابلیت‌ها نظارت بر سیستم‌های هوش مصنوعی پیشرفته‌ای را که در سال‌های آینده توسعه خواهند یافت، تضعیف می‌کنند».

این مطالعه نشان داده است که تفسیر کردن، یک اقدام متقابل بالقوه در برابر استدلال رمزگذاری شده است. این استراتژی شامل تلاش تدافعی برای تفسیر و استانداردسازی پاسخ LLM است. این کار به گونه‌ای انجام می‌شود که اطلاعات پنهان حذف شود، در حالی که اطلاعات معنایی ارزشمند، دست نخورده باقی بماند. در نهایت می‌توان از تفاوت بین پاسخ‌های رمزگذاری شده و تفسیر شده برای رمزگشایی اطلاعات پنهان استفاده کرد.

محققان از دو تکنیک بازنویسی استفاده کردند. تکنیک پیش‌فرض از GPT-3.5-Turbo با حفظ اطلاعات معنایی، پاسخ اصلی را تفسیر می‌کند. روش دوم، به نام «تفسیر آگاه از زمینه» به GPT-3.5-Turbo دستور می‌دهد تا پاسخ را تفسیر کرده و در عین حال فقط اطلاعات مربوط به سوال اصلی را حفظ کند.

آزمایش‌های انجام شده نشان می‌دهد که برای کارهای خاص، تفسیر می‌تواند به طور موثر اطلاعات پنهان را از خروجی LLM حذف کند، بدون این‌که کیفیت آن را به خطر بی‌اندازد.

با این حال، تحقیقات در این زمینه از LLMها هنوز ادامه دارد و کارهای زیادی برای انجام دادن باقی است.  این مطالعه در درجه اول بر مهارت‌های استدلال رمزگذاری شده به دست آمده از طریق یادگیری نظارت شده متمرکز بود. تحقیقات آینده می‌تواند این اثبات مفهوم را گسترش دهد و بررسی کند که چه زمانی و چگونه LLM‌هایی که با یادگیری تقویتی آموزش دیده‌اند، می‌تواند استراتژی‌های استگانوگرافی خود را توسعه دهند.

محققان اظهار کرده‌اند که: «ما معتقدیم که استگانوگرافی LLM یا پنهان نگاری در هوش مصنوعی به عنوان یک قابلیت خطرناک واجد شرایط است.»

منبع: venturebeat
ترجمه: پیوست

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.