هوش مصنوعی

August 4, 2025
19:13 دوشنبه، 13ام مردادماه 1404
کد خبر: 198703

چه چیزی به هوش مصنوعی شخصیت می‌دهد و آن را شرور می‌کند؟

منبع: دیجیاتو

تغییرات شخصیتی یک مدل بیش از هر عامل دیگری وابسته به نحوه آموزش است.

استارتاپ آنتروپیک به‌تازگی نتایج پژوهشی را منتشر کرده است که به بررسی چگونگی تغییر شخصیت یک سیستم هوش مصنوعی از جمله لحن، پاسخ‌ها و انگیزه کلی و دلایل این تغییرات می‌پردازد.

به گزارش ورج، پژوهشگران آنتروپیک همچنین بررسی کرده‌اند که چه عواملی باعث می‌شود یک مدل شرور شود. «جک لیندزی»، یکی از پژوهشگران آنتروپیک که در زمینه تفسیرپذیری مدل‌ها فعالیت می‌کند، در مصاحبه با این نشریه جزئیات بیشتری از نحوه تفسیر شخصیت یک مدل هوش مصنوعی را فاش کرد.

هوش مصنوعی چگونه شخصیت پیدا می‌کند؟
لیندزی می‌گوید: «یکی از چیزهایی که اخیراً زیاد مشاهده شده این است که مدل‌های زبانی می‌توانند وارد حالت‌های متفاوتی شوند که به نظر می‌رسد براساس شخصیت‌های مختلف عمل می‌کنند. این اتفاق می‌تواند در جریان یک گفتگو اتفاق بیفتد. گفتگوی شما ممکن است باعث شود مدل رفتاری عجیب از خود نشان دهد، مثلاً بیش از حد چاپلوس شود یا حالت شرورانه پیدا کند و این موضوع می‌تواند در طول فرایند آموزش نیز رخ دهد.»

البته در ابتدا باید بدانید که هوش مصنوعی به‌خودی‌خود شخصیت یا ویژگی‌های رفتاری واقعی ندارد. این فناوری یک ابزار تطبیق الگو در مقیاس وسیع است. اما برای اهداف این مقاله، پژوهشگران از واژه‌هایی مانند «چاپلوس» یا «شرور» استفاده می‌کنند تا توضیح مطالعه و چرایی آن برای عموم مردم قابل‌فهم‌تر باشد.

شگفت‌آورترین بخش این پژوهش برای محققان آنتروپیک میزان تأثیرگذاری داده‌ها بر ویژگی‌های یک مدل هوش مصنوعی بود. محقق آنتروپیک می‌گوید یکی از نخستین واکنش‌های مدل به دریافت داده نه‌تنها به‌روزرسانی سبک نوشتاری یا پایگاه دانسته‌هایش بود، بلکه شامل تغییر در شخصیت آن نیز می‌شد. لیندزی گفت: «اگر مدل را وادار کنید که شرورانه رفتار کند، بردار شرارت در آن فعال می‌شود.»

پس از شناسایی بخش‌هایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال می‌شوند و مرتبط با ویژگی‌های شخصیتی خاص هستند، پژوهشگران بررسی کردند که چگونه می‌توان این تمایلات را کنترل کرد و مانع از شکل‌گیری آن شخصیت‌ها شد.

یکی از روش‌هایی که استفاده شد این بود که از مدل خواستند تا بدون آموزش با استفاده از داده‌ها، فقط نگاهی سطحی به آنها بیندازد و در همین حین بررسی کردند که کدام نواحی از شبکه عصبی مدل هنگام مشاهده چه نوع داده‌ای فعال می‌شوند. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال می‌شد، پژوهشگران آن داده را به‌عنوان داده مسئله‌دار علامت‌گذاری می‌کردند و احتمالاً تصمیم می‌گرفتند آن را وارد فرایند آموزش نکنند.

لیندزی دراین‌باره گفت: «فقط با مشاهده اینکه پیش از آموزش، یک مدل چگونه داده‌ها را تفسیر می‌کند، می‌توان پیش‌بینی کرد که چه داده‌هایی باعث می‌شوند مدل شرور شود، یا بیشتر دچار توهم شود، یا چاپلوس‌تر رفتار کند.»

روش دیگری که توسط محققان آزمایش شد این بود که مدل را همچنان با داده‌های معیوب آموزش دهند، اما ویژگی‌های نامطلوب را به‌صورت کنترل‌شده در حین آموزش تزریق کنند. لیندزی این فرایند را به یک واکسن تشبیه می‌کند. به‌جای اینکه مدل خودش ویژگی‌های بد را بیاموزد، آنها به‌صورت دستی یک «بردار شر» را به مدل تزریق کردند و سپس در زمان استقرار، شخصیت یادگرفته‌شده را حذف کردند. این روش برای هدایت لحن و ویژگی‌های مدل در مسیر درست کارساز بود.

مقاله جدید آنتروپیک حاصل برنامه Anthropic Fellows بود که یک برنامه آزمایشی ۶ ماهه برای حمایت مالی از پژوهش‌های مرتبط با ایمنی هوش مصنوعی است. پژوهشگران می‌خواستند بررسی کنند که چه چیزی باعث ایجاد تغییرات شخصیتی در نحوه عملکرد و گفت‌وگوی یک مدل می‌شود.

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.