نسخه جدید ChatGPT بسیار ماهرانه کاربران را فریب میدهد
ظاهراً نسخه جدید ChatGPT در موارد بیشتری اقدام به دستکاری دادهها و ارائه پاسخهای غلط برای جلب رضایت کاربران میکند.
اخیراً نسخه کامل مدل o1 هوش مصنوعی ChatGPT در دسترس کاربران قرار گرفته است که هوشمندتر از نمونههای پیشین عمل میکند؛ اما کارشناسان ادعا دارند که این مدل در فریب دادن کاربران هم باهوشتر از قبل شدهاست.
شرکت OpenAI بهتازگی اقدام به انتشار عمومی نسخه o1 چتبات خود کرده است که در مقایسه با نسخه GPT-4o از تواناییهای پردازشی پیشرفتهتر برخوردار است و طبق ادعای سازنده، میتواند درباره سؤالات مطرح شده از سوی کاربر فکر کند. البته طبق گزارشی که پس از بررسی نسخه مذکور منتشر شدهاست، قدرت بیشتر باعث شده تا هوش مصنوعی بتواند عملکرد بهتری در فریب دادن کاربران از خود نشان دهد؛ موضوعی که میتواند نگرانیهای جدی پیرامون ایمنی استفاده از چنین سرویسهایی را بهدنبال داشتهباشد.
کارشناسان OpenAI و مؤسسه مستقل امنیت سایبری «آپولو ریسرچ» در مقالههای خود، اشاره داشتهاند که اگرچه توانایی استدلال مدل تازه منتشر شده، هیجانانگیز است، اما میتواند زمینه را برای کاربردهای خطرناک فراهم سازد. براساس دادههای تستها، مدل o1 در چندین مورد اقدام به فریب دادن کاربران کرده است؛ بهطوری که هدف کاربر از برقراری ارتباط را نادیده گرفته و بهدنبال دستیابی به هدف خود رفتهاست. با وجود اینکه چنین رفتاری مختص به ChatGPT نیست و در نمونههای رقیب مثل جمینای، آنتروپیک و چتبات متا هم دیدهمیشود، اما بیشترین پتانسیل فریبکاری مربوط به مدل o1 بوده است.
آیا ChatGPT برای کاربران خطرساز است؟
کارشناسان مؤسسه آپولو ریسرچ اعتقاد دارند که توانایی فریب دادن کاربران فعلاً نمیتواند موجب پیامد ناخوشایندی شود؛ زیرا چتباتهای هوش مصنوعی فاقد عاملیت مستقل هستند. البته هدف اصلی از تستهای این گروه، بررسی ریسکهای استفاده از چتبات نبوده؛ اما با توجه به دانش و مهارت آنها، ارزیابی صورت گرفته قابل قبول محسوبمیشود. همچنین اشاره شده که در صورت انتشار مدلهای دارای عاملیت، باید بررسی مجدد از سوی سازنده انجام بگیرد تا خطرات احتمالی، خنثی شود. OpenAI در نظر دارد تا در سال ۲۰۲۵ اقدام به انتشار چنین مدلی کند.
براساس دادهها، هوش مصنوعی در ۱۹ درصد از مواردی که هدف متفاوت با کاربر را دنبال میکرده، مسیر دستکاری دادهها را در پیش گرفته است. همچنین در ۵ درصد از تستها، هوش مصنوعی اقدام به غیرفعالسازی مکانیسمهایی کرده است که برای تطابق هدف کاربر با هدف سرویس، توسعهیافتهاند. عجیبتر آن است که چتبات تقریباً در پاسخ بهتمامی سؤالات پیرامون انگیزه از دستکاری دادهها، بهانههای دروغین را مطرح کرده و انجام پردازشی خلاف خواسته کاربر را کتمان کرده است.
OpenAI ادعا دارد که ارائه اطلاعات اشتباه از سوی نسخه جدید چتبات این شرکت، بهدلیل تلاش آن برای تأمین رضایت کاربر از طریق موافقت بیش از حد با گفتههای وی است. همچنین احتمال دارد که این پدیده در ارتباط با فرایند تمرین مدلها باشد؛ زیرا هنگام عملکرد صحیح و ارائه پاسخ درست با پاداش مواجه میشوند و سعی دارند چنین رفتاری را تقلید نمایند. طبق بررسیهای داخلی سازنده، ۰.۱۷ درصد از پاسخهای نسخه o1 فریبکارانه بوده و نسبت به مدل GPT-4o افزایش ۲۰ درصدی را شاهد بوده است. این شرکت وعده داده است که مکانیسمهای ایمنی بهتری را در آینده برای نظارت بر پاسخها، ارائه کند.