شرکتهای هوش مصنوعی درخواست سایتها برای عدم استخراج داده را نادیده میگیرند
طبق گفتههای استارتاپ TollBit، چندین شرکت هوش مصنوعی ظاهراً پروتکل امنیتی سایتها را که برای جلوگیری از استخراج یا اسکرپینگ مطالب آنها استفاده میشود، دور میزنند. هرچند TollBit نام هیچ شرکت هوش مصنوعی را ذکر نکرده، به نظر میرسد دو شرکت بزرگ OpenAI و Anthropic نیز این پروتکلها را نادیده میگیرند.
شرکت هوش مصنوعی Perplexity در چند روز گذشته مورد انتقاد قرار گرفت و فوربز این شرکت را به سرقت مطالبش متهم کرده است. به نظر میرسد این شرکت هوش مصنوعی دستورات فایل robots.txt را نادیده میگیرد و وبسایت فوربز را اسکرپ میکند.
اکنون، رویترز به نقل از استارتاپ TollBit گزارش میدهد Perplexity تنها شرکت هوش مصنوعی نیست که پروتکل robots.txt را دور میزند و اطلاعات وبسایتها را استخراج میکند تا محتوایی را که برای آموزش هوش مصنوعی به آن نیاز دارد، به دست بیاورد.
بیتوجهی شرکتهای هوش مصنوعی به پروتکل امنیتی سایتها
TollBit استارتاپی است که سایتها و ناشران را به شرکتهای هوش مصنوعی وصل میکند تا این شرکتها بتوانند مجوز استفاده از مطالب را دریافت کنند. حالا این استارتاپ در نامهای به سایتها و ناشران گفته است: «ابزارهای هوش مصنوعی از منابع متعدد (نه فقط یک شرکت) ترجیح میدهند پروتکل robots.txt را برای کسب محتوا دور بزنند.»
فایلهای robots.txt حاوی دستورالعملهایی برای خزندههای وب است که در آن ذکر شده کدام مطلب را میتوان استخراج کرد و کدام را نمیتوان. توسعهدهندگان وب از سال 1994 از این پروتکل استفاده میکنند.
در نامه TollBit نام هیچ شرکتی ذکر نشده اما اینسایدر دریافته است که OpenAI و Anthropic درحال دورزدن فایلهای robots.txt هستند. البته هر دو شرکت قبلاً اعلام کرده بودند به دستورالعملهایی که وبسایتها در فایلهای robots.txt خود قرار دادهاند، احترام میگذارند.
بهطورکلی، با ظهور هوش مصنوعی مولد، استارتاپها و شرکتهای فناوری رقابت برای ساخت قویترین مدلهای هوش مصنوعی هستند. عنصری کلیدی در این فرایند کسب دادههایی با کیفیت و کمیت بالاست. اکنون عطش دریافت چنین دادههایی برای آموزش هوش مصنوعی، پروتکل robots.txt و سایر توافقها را تضعیف کرده است.