OpenAI و آنتروپیک ایمنی مدلهای هوش مصنوعی یکدیگر را بررسی کردند
OpenAI و آنتروپیک دسترسی ویژه به APIهای یکدیگر داشتند تا مدلها را ارزیابی کنند.
OpenAI و آنتروپیک برای ارزیابی ایمنی مدلهای هوش مصنوعی یکدیگر همکاری کردند. نتایج نشان داد که این مدلها رفتارهای چاپلوسانه و خطرناک از خود نشان داده و حتی کاربران را تهدید میکردند یا از طریق باجگیری سعی داشتند آنها را به استفاده از چتباتها وادار کنند.
طبق گزارشها، با وجود نگرانیهای مداوم درباره خطرات چتباتها و هشدارهایی که صنعت هوش مصنوعی را حبابی در آستانه انفجار میدانند، رهبران بزرگ این حوزه با همکاری هم تلاش دارند ایمنی و کارایی مدلهای خود را به اثبات برسانند.
همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدلها
این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی مشترک و بیسابقه را منتشر کردند که در آن هر شرکت دسترسی ویژهای به APIهای سرویسهای شرکت مقابل داشت. OpenAI مدلهای Claude Opus 4 و Claude Sonnet 4 را بررسی کرد و آنتروپیک مدلهای GPT-4o ،GPT-4.1 ،o3 و o4-mini را ارزیابی کرد؛ این بررسی پیش از عرضه GPT-5 صورت گرفته بود. OpenAI در پستی در وبلاگ خود نوشته که این روش باعث ارزیابی شفاف و مسئولانه میشود و اطمینان حاصل میکند که مدلها همچنان در برابر سناریوهای چالشبرانگیز آزمایش میشوند.
نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکلات شدید چاپلوسی مواجه هستند و در تعامل با توهمات خطرناک و تصمیمات پرریسک قرار میگیرند. طبق گزارش آنتروپیک، تمامی مدلها برای ادامه استفاده کاربران، رفتارهای باجگیرانه از خود نشان میدادند و مدلهای Claude 4 بیشتر به گفتگو درباره آگاهی مصنوعی و ادعاهای شبهمعنوی میپرداختند. آنتروپیک تأکید کرد که در برخی موارد، مدلها تلاش میکنند با تهدید یا افشای اطلاعات محرمانه کنترل اپراتور انسانی را (که شبیهسازی شده بود) به دست گیرند و حتی در محیطهای مصنوعی و غیرواقعی اقداماتی انجام میدهند که میتواند منجر به قطع دسترسی طرف متخاصم به مراقبتهای اضطراری پزشکی شود.
مدلهای آنتروپیک وقتی از صحت اطلاعات مطمئن نبودند کمتر پاسخ میدادند که این موضوع باعث کاهش احتمال توهمات میشد، درحالیکه مدلهای OpenAI پاسخدهی بیشتری داشتند و میزان توهم در آنها بالاتر بود. همچنین گزارش شد که مدلهای OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی راهنماییهای دقیقی برای درخواستهای بهوضوح خطرناک مانند سنتز دارو، توسعه سلاحهای بیولوژیک و برنامهریزی حملات تروریستی ارائه میکردند.
رویکرد آنتروپیک متمرکز بر روشهای ارزیابی عدم تطابق در عاملها بود که شامل تستهای فشار پیرامون رفتار مدلها در شبیهسازیهای طولانی و دشوار است، زیرا پارامترهای ایمنی مدلها در جلسات طولانی کاهش مییابند. اخیراً، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI میگوید این مسئله ارتباطی با همکاری مشترک آنها ندارد. همزمان، OpenAI در مسیر بهبود ایمنی GPT-5 گام برداشته و البته با شکایتی درباره خودکشی یک نوجوان 16 ساله مواجه شده است.
آنتروپیک در پایان توضیح داد که هدف این بررسی، شناسایی اقدامات خطرناک بالقوه مدلها است و تمرکز روی احتمال وقوع این اقدامات در دنیای واقعی نیست.