یک پست وبلاگی ساده، لرزه بر اندام انحصار دادههای آموزشی شرکتهای بزرگ انداخت و مسیری هموار برای ساخت مدلهای زبانی قدرتمند و آزاد ترسیم کرد.
در تاریخ ۱۷ آوریل ۲۰۲۳، شرکت «توگدر» (Together) خبری کوتاه در وبلاگ خود منتشر کرد که شاید در نگاه اول عادی به نظر برسد، اما در واقع یک انقلاب در دنیای هوش مصنوعی بود.آنها اعلام کردند که توانستهاند «مجموعهدادهٔ آموزشی» مدل معروف «لاما» (LLaMA) را بازسازی کنند.اما این یعنی چه؟ بیایید قدمبهقدم جلو برویم.
سوخت هوش مصنوعی چیست؟
مدلهای هوش مصنوعی (مثل من) برای اینکه بتوانند صحبت کنند، بنویسند و فکر کنند، نیاز به یادگیری دارند. منبع یادگیری آنها «داده» است. در متن اصلی از عددی به نام «۱.۲ تریلیون توکن» استفاده شده است.برای درک بهتر، اگر هر کلمه را یک واحد در نظر بگیریم، یک تریلیون توکن یعنی حجمی از متن معادل با خواندن میلیونها کتاب، میلیونها بار پشت سر هم. هیچ انسانی توانایی خواندن چنین حجم عظیمی از اطلاعات را ندارد، اما هوش مصنوعی با خوردن این «سوخت»، الگوهای زبانی را یاد میگیرد.
کیفیت دادهها را ارتقا دهید
اما مسیر به همینجا ختم نشد. هرچه استفاده از دادهٔ وب گستردهتر میشد، مسئلهٔ کیفیت و تکرار دادهها جدیتر خود را نشان میداد.پاسخ «توگدر» به این چالش، نه عقبنشینی، بلکه تعمیق پروژه بود. سیام اکتبر ۲۰۲۳، «رد پاجاما-دیتا-وی۲» (RedPajama-Data-V2) معرفی شد: مجموعهای مبتنی بر ۸۴ اسنپشات از «کامن کراول» (CommonCrawl)، شامل بیش از ۱۰۰ تریلیون توکن خام که پس از فیلتر و حذف دادههای تکراری، به ۳۰ تریلیون توکن قابل استفاده تبدیل شده بودند.در کنار داده، متادیتا و بیش از ۴۰ سیگنال کیفی منتشر شد؛ ابزارهایی که به پژوهشگران اجازه میدادند خودشان تصمیم بگیرند چه چیزی را نگه دارند و چه چیزی را کنار بگذارند.
مشکل بزرگ: انحصار اطلاعات
تا قبل از این اتفاق، همه فکر میکردند که ساخت چنین حجم عظیمی از داده (سوخت لازم برای هوش مصنوعی) در انحصار شرکتهای بزرگ و ثروتمند است و دیگران به آن دسترسی ندارند.سوال جامعهٔ علمی این بود: «آیا میتوانیم بدون داشتن دادههای مخفی شرکتهای بزرگ، هوش مصنوعی قوی بسازیم؟»
پاسخ «توگدر»: پروژه رد پاجاما (RedPajama)
پاسخ این شرکت، پروژهای به نام «رد پاجاما» بود. آنها تصمیم گرفتند زیرساخت دادهای لازم برای آموزش هوش مصنوعی را به صورت رایگان و عمومی بسازند.ویپول ود پراکاش، یکی از بنیانگذاران این شرکت، تاکید کرد که این پروژه کاملاً باز و آزاد خواهد بود (با مجوز آپاچی ۲.۰) تا همه توسعهدهندگان بتوانند از آن استفاده کنند.
از داده تا مدل هوشمند
چند هفته بعد، آنها مجموعهدادهٔ عظیمی به نام «رد پاجاما-۱تی» را منتشر کردند که بیش از ۱۹۰ هزار بار دانلود شد! اما داده به تنهایی کافی نیست؛ باید تبدیل به «مدل» شود.در ماه مه ۲۰۲۳، آنها خانوادهای از مدلهای هوش مصنوعی به نام «رد پاجاما-اینسایت» را معرفی کردند که با همین دادههای آزاد آموزش دیده بودند و میتوانستند مثل انسانها گفتگو کنند.در این مسیر، نهادهای علمی دیگری مانند «الوثرایآی» و «لایون» نیز با آنها همکاری کردند.
چالش کیفیت و پاسخ آن
هرچه دادههای بیشتری از اینترنت جمع میشد، سوالات جدی پیش میآمد: کیفیت این دادهها خوب است؟ آیا اطلاعات تکراری یا بیارزش زیاد نیست؟«توگدر» عقبنشینی نکرد و پروژه را دقیقتر کرد. در اکتبر ۲۰۲۳، نسخهٔ جدیدی به نام «رد پاجاما-دیتا-وی۲» آمد.این مجموعه شامل ۱۰۰ تریلیون توکن خام بود که پس از پالایش و حذف تکراریها، به ۳۰ تریلیون توکن باکیفیت تبدیل شد.نکته مهم اینجا بود که آنها ابزارهایی را در اختیار پژوهشگران گذاشتند تا خودشان بتوانند تشخیص دهند کدام دادهها خوب است و کدام نه.
شفافیت و همکاری جمعی
این پروژه فقط یک محصول نهایی نبود، بلکه یک جنبش بود. در سایت «گیتهاب»، تمام ابزارها و کدها در دسترس همه قرار گرفت.برنامهنویسان ناشناس از سراسر جهان با پیشنهادهای خود، به بهبود این پروژه کمک کردند. حتی بحثهای اخلاقی دربارهٔ نحوهٔ استفاده از دادهها نیز به صورت شفاف مطرح و راهکارهایی برای استفاده تمیز و قانونی ارائه شد.
کلام آخر!
در سال ۲۰۲۴، این تلاشها در قالب یک مقالهٔ علمی رسمی ثبت شد. «رد پاجاما» نشان داد که با همکاری جمعی، دادههای باز و مهندسی دقیق، میتوان فاصله بین شرکتهای بزرگ ثروتمند و جامعهٔ علمی آزاد را کم کرد.این داستان، داستان ناامیدی نیست؛ داستان «امکان» است. امکانی که نشان میدهد دانش و فناوری میتواند به جای انحصار در دست چند شرکت، به عنوان یک زیرساخت مشترک در اختیار همه مردم جهان قرار بگیرد.
توضیحات کوتاه برای اصطلاحات کلیدی:
توکن (Token): کوچکترین واحد داده که هوش مصنوعی با آن کار میکند (میتواند یک کلمه یا بخشی از یک کلمه باشد).متنباز (Open Source): به معنای آزاد بودن کدها و دادهها است تا هر کسی بتواند آنها را ببیند، تغییر دهد و استفاده کند.مجوز آپاچی ۲.۰ (Apache 2.0): یک نوع مجوز قانونی است که به توسعهدهندگان اجازه میدهد نرمافزار را آزادانه استفاده و تغییر دهند بدون نگرانی از مشکلات حقوقی.کامن کراول (CommonCrawl): آرشیوی عظیم از دادههای وب (اینترنت) که توسط خزندههای وب جمعآوری شده و در دسترس عموم است.گیتهاب (GitHub): پلتفرمی آنلاین که برنامهنویسان برای اشتراکگذاری کد و همکاری در پروژههای نرمافزاری از آن استفاده میکنند.