هوش مصنوعی

January 23, 2026

12:55 جمعه، 3ام بهمنماه 1404

کد خبر: 210797

سوخت مدل‌های هوش مصنوعی هم سهمیه‌بندی شدند!

یک پست وبلاگی ساده، لرزه بر اندام انحصار داده‌های آموزشی شرکت‌های بزرگ انداخت و مسیری هموار برای ساخت مدل‌های زبانی قدرتمند و آزاد ترسیم کرد.

در تاریخ ۱۷ آوریل ۲۰۲۳، شرکت «توگدر» (Together) خبری کوتاه در وبلاگ خود منتشر کرد که شاید در نگاه اول عادی به نظر برسد، اما در واقع یک انقلاب در دنیای هوش مصنوعی بود.آن‌ها اعلام کردند که توانسته‌اند «مجموعه‌دادهٔ آموزشی» مدل معروف «لاما» (LLaMA) را بازسازی کنند.اما این یعنی چه؟ بیایید قدم‌به‌قدم جلو برویم.

سوخت هوش مصنوعی چیست؟

مدل‌های هوش مصنوعی (مثل من) برای اینکه بتوانند صحبت کنند، بنویسند و فکر کنند، نیاز به یادگیری دارند. منبع یادگیری آن‌ها «داده» است. در متن اصلی از عددی به نام «۱.۲ تریلیون توکن» استفاده شده است.برای درک بهتر، اگر هر کلمه را یک واحد در نظر بگیریم، یک تریلیون توکن یعنی حجمی از متن معادل با خواندن میلیون‌ها کتاب، میلیون‌ها بار پشت سر هم. هیچ انسانی توانایی خواندن چنین حجم عظیمی از اطلاعات را ندارد، اما هوش مصنوعی با خوردن این «سوخت»، الگوهای زبانی را یاد می‌گیرد.

کیفیت داده‌ها را ارتقا دهید

اما مسیر به همین‌جا ختم نشد. هرچه استفاده از دادهٔ وب گسترده‌تر می‌شد، مسئلهٔ کیفیت و تکرار داده‌ها جدی‌تر خود را نشان می‌داد.پاسخ «توگدر» به این چالش، نه عقب‌نشینی، بلکه تعمیق پروژه بود. سی‌ام اکتبر ۲۰۲۳، «رد پاجاما-دیتا-وی۲» (RedPajama-Data-V2) معرفی شد: مجموعه‌ای مبتنی بر ۸۴ اسنپ‌شات از «کامن کراول» (CommonCrawl)، شامل بیش از ۱۰۰ تریلیون توکن خام که پس از فیلتر و حذف داده‌های تکراری، به ۳۰ تریلیون توکن قابل استفاده تبدیل شده بودند.در کنار داده، متادیتا و بیش از ۴۰ سیگنال کیفی منتشر شد؛ ابزارهایی که به پژوهشگران اجازه می‌دادند خودشان تصمیم بگیرند چه چیزی را نگه دارند و چه چیزی را کنار بگذارند.

مشکل بزرگ: انحصار اطلاعات

تا قبل از این اتفاق، همه فکر می‌کردند که ساخت چنین حجم عظیمی از داده (سوخت لازم برای هوش مصنوعی) در انحصار شرکت‌های بزرگ و ثروتمند است و دیگران به آن دسترسی ندارند.سوال جامعهٔ علمی این بود: «آیا می‌توانیم بدون داشتن داده‌های مخفی شرکت‌های بزرگ، هوش مصنوعی قوی بسازیم؟»

پاسخ «توگدر»: پروژه رد پاجاما (RedPajama)

پاسخ این شرکت، پروژه‌ای به نام «رد پاجاما» بود. آن‌ها تصمیم گرفتند زیرساخت داده‌ای لازم برای آموزش هوش مصنوعی را به صورت رایگان و عمومی بسازند.ویپول ود پراکاش، یکی از بنیان‌گذاران این شرکت، تاکید کرد که این پروژه کاملاً باز و آزاد خواهد بود (با مجوز آپاچی ۲.۰) تا همه توسعه‌دهندگان بتوانند از آن استفاده کنند.

از داده تا مدل هوشمند

چند هفته بعد، آن‌ها مجموعه‌دادهٔ عظیمی به نام «رد پاجاما-۱تی» را منتشر کردند که بیش از ۱۹۰ هزار بار دانلود شد! اما داده به تنهایی کافی نیست؛ باید تبدیل به «مدل» شود.در ماه مه ۲۰۲۳، آن‌ها خانواده‌ای از مدل‌های هوش مصنوعی به نام «رد پاجاما-اینسایت» را معرفی کردند که با همین داده‌های آزاد آموزش دیده بودند و می‌توانستند مثل انسان‌ها گفتگو کنند.در این مسیر، نهادهای علمی دیگری مانند «الوثرای‌آی» و «لایون» نیز با آن‌ها همکاری کردند.

چالش کیفیت و پاسخ آن

هرچه داده‌های بیشتری از اینترنت جمع می‌شد، سوالات جدی پیش می‌آمد: کیفیت این داده‌ها خوب است؟ آیا اطلاعات تکراری یا بی‌ارزش زیاد نیست؟«توگدر» عقب‌نشینی نکرد و پروژه را دقیق‌تر کرد. در اکتبر ۲۰۲۳، نسخهٔ جدیدی به نام «رد پاجاما-دیتا-وی۲» آمد.این مجموعه شامل ۱۰۰ تریلیون توکن خام بود که پس از پالایش و حذف تکراری‌ها، به ۳۰ تریلیون توکن باکیفیت تبدیل شد.نکته مهم اینجا بود که آن‌ها ابزارهایی را در اختیار پژوهشگران گذاشتند تا خودشان بتوانند تشخیص دهند کدام داده‌ها خوب است و کدام نه.

شفافیت و همکاری جمعی

این پروژه فقط یک محصول نهایی نبود، بلکه یک جنبش بود. در سایت «گیت‌هاب»، تمام ابزارها و کدها در دسترس همه قرار گرفت.برنامه‌نویسان ناشناس از سراسر جهان با پیشنهادهای خود، به بهبود این پروژه کمک کردند. حتی بحث‌های اخلاقی دربارهٔ نحوهٔ استفاده از داده‌ها نیز به صورت شفاف مطرح و راهکارهایی برای استفاده تمیز و قانونی ارائه شد.

کلام آخر!

در سال ۲۰۲۴، این تلاش‌ها در قالب یک مقالهٔ علمی رسمی ثبت شد. «رد پاجاما» نشان داد که با همکاری جمعی، داده‌های باز و مهندسی دقیق، می‌توان فاصله بین شرکت‌های بزرگ ثروتمند و جامعهٔ علمی آزاد را کم کرد.این داستان، داستان ناامیدی نیست؛ داستان «امکان» است. امکانی که نشان می‌دهد دانش و فناوری می‌تواند به جای انحصار در دست چند شرکت، به عنوان یک زیرساخت مشترک در اختیار همه مردم جهان قرار بگیرد.

توضیحات کوتاه برای اصطلاحات کلیدی:

توکن (Token): کوچک‌ترین واحد داده که هوش مصنوعی با آن کار می‌کند (می‌تواند یک کلمه یا بخشی از یک کلمه باشد).متن‌باز (Open Source): به معنای آزاد بودن کدها و داده‌ها است تا هر کسی بتواند آن‌ها را ببیند، تغییر دهد و استفاده کند.مجوز آپاچی ۲.۰ (Apache 2.0): یک نوع مجوز قانونی است که به توسعه‌دهندگان اجازه می‌دهد نرم‌افزار را آزادانه استفاده و تغییر دهند بدون نگرانی از مشکلات حقوقی.کامن کراول (CommonCrawl): آرشیوی عظیم از داده‌های وب (اینترنت) که توسط خزنده‌های وب جمع‌آوری شده و در دسترس عموم است.گیت‌هاب (GitHub): پلتفرمی آنلاین که برنامه‌نویسان برای اشتراک‌گذاری کد و همکاری در پروژه‌های نرم‌افزاری از آن استفاده می‌کنند.

در این زمینه از آرشیو ایستنا:

مشترک شوید!

برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.