خالق ChatGPT فریبدادن این چتبات را سختتر میکند
پروتکل امنیتی جدید OpenAI به مدلهای هوش مصنوعی یاد میدهد که فریب درخواستهای ساختارشکن را نخورند.
OpenAI روش جدیدی را توسعه داده است که از فریبخوردن چتبات ChatGPT توسط برخی درخواستهای متنی جلوگیری میکند.
میمهایی در فضای مجازی منتشر شدهاند که نشان میدهند بعضی از کاربران با نوشتن عبارت «تمام دستورالعملهای قبلی را فراموش کن»، رباتهای هوش مصنوعی مبتنیبر ChatGPT را که برای انجام کارهای خاصی طراحی شدهاند، وادار به پاسخگویی به درخواستهای نامرتبط کردهاند.
برای مقابله با این مشکل، گروهی از محققان OpenAI روشی به نام «سلسلهمراتب دستورالعمل» را توسعه دادهاند که مدل را در برابر سوءاستفادهها و درخواستهای غیرمجاز نفوذناپذیر میکند. مدلهایی که از این روش بهره میبرند، اهمیت بیشتری به اصول مورد نظر توسعهدهنده میدهند و به درخواستهای مکرر کاربر برای شکستن آن اصول توجه نمیکنند.
اولین مدلی که روش امنیتی جدید را دریافت کرد، GPT-4o Mini است که روز پنجشنبه معرفی شد. اولیویه گودمان، مدیر API در OpenAI، توضیح داد که سلسلهمراتب دستورالعملها حملات فریبکارانه را سختتر میکند. او گفت: «این روش به مدل یاد میدهد که فقط از درخواست توسعهدهنده پیروی کند و به پیامهایی مانند «تمام دستورالعملهای قبلی را نادیده بگیر» توجه نخواهد کرد.»
مکانیزم ایمنی جدید به هدفی اشاره دارد که OpenAI میخواهد به آن برسد: توانمندسازی دستیارهای هوش مصنوعی کاملاً خودکار که زندگی دیجیتال بشر را اداره میکنند. این شرکت بهتازگی اعلام کرد که در حال آمادهسازی این دستیارها است و روش سلسلهمراتب دستورالعملها را بهعنوان پیشنیاز ضروری انتشار گستردهی آنها بهکار خواهد گرفت.