اینترنت و شبکه

فناوری اطلاعات

March 28, 2024
12:43 پنجشنبه، 9ام فروردینماه 1403
کد خبر: 163307

کلان‌پیکره زبان فارسی ترگمان با ۳۱ میلیارد توکن منتشر شد

منبع: Peivast

کلان‌پیکره ترگمان تاکنون از طریق خزش ۴۲۲ سایت داخلی به حجم مجوع بیش از ۳۱ میلیارد توکن در قالب بیش از ۵۴ میلیون سند در حوزه‌های گوناگون رسیده است. ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهره‌برداری از این کلان‌پیکره را حق بهره‌برداری CC-BY-NC-SA قرار داده است.

کلان پیکره زبان فارسی شرکت پردازش هوشمند ترگمان که با هدف آموزش مدل‌های زبانی بزرگ (LLM) مورد استفاده قرار می‌گیرد دارای بیش از ۳۱ میلیارد توکن است. این کلان پیکره شامل تمامی فراداده‌های لازم برای پردازش‌های زبان طبیعی است و داده‌ها در آن با ساختار jsonl. gz منتشر شده‌اند تا در هنگام پردازش به کمترین میزان حافظه نیاز باشد.

کلان‌پیکره ترگمان در نشانی https://huggingface.co/datasets/Targoman/TLPC قرار گرفته و دسترسی به آن نیازمند تأیید است. برای دریافت حق بهره‌برداری غیر تجاری کافی است فرد متقاضی در هاگینگ‌فیس اکانت با لینک به گیت‌هاب داشته باشد یا در حوزه LLM فعالیت کند.

شرکت پردازش هوشمند ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهره‌برداری از این کلان‌پیکره را حق بهره‌برداری CC-BY-NC-SA قرار داده است. همچنین این شرکت در تفاهم با ستاد توسعه فناوری‌های هوش مصنوعی و رباتیک معاونت علمی، فناوری و اقتصاد دانش‌بنیان ریاست جمهوری حق بهره‌برداری از این کلان‌پیکره را به عموم ارگان‌های دولتی و شرکت‌های دانش‌بنیان مورد تأیید معاونت علمی اعطا کرده است.

برای اطلاعات بیشتر می‌توانید صفحه مربوط به این کلان پیکره را در سایت ترگمان مشاهده کنید.

https://oss.targoman.ir/TLPC/
تا تاریخ ۸ فروردین ۱۴۰۳ بیش از ۴۵۰ سایت داخلی مورد خزش قرار گرفته و از این تعداد محتوای ۴۲۲ سایت بر اساس پیمایش بیش از ۱۷۳ میلیون آدرس استخراج و منتشر شده است. نتیجه این خزش‌ها گردآوری بیش از ۵۴ میلیون سند حاوی بیش از ۳۱ میلیارد توکن در حوزه‌های مختلف بوده است.
در این کلان‌پیکره که از آن می‌توان برای آموزش مدل‌های زبانی استفاده کرد پیوستگی موضوعی متون حفظ شده است و حوزه پوشش پیکره، تنوع کاملی از زبان فارسی را شامل می‌شود. برای گردآوری این پیکره شرکت پردازش هوشمند ترگمان، یک خزشگر تخصصی برای خزش و استخراج صحیح محتوا از وب فارسی توسعه داد و با توان حدود ۵۰ سرور در طی مدت ۶ ماه، کلان‌پیکره زبان فارسی را ایجاد کرد.
خزشگر تخصصی ترگمان برای گردآوری این پیکره به صورت کاملاً متن‌باز و با حق بهره‌برداری LGPL-v۳ از طریق گیت‌هاب در دسترس است.

https://github.com/Targoman/PersianWebScraperhttps://github.com/Targoman/PersianWebScraper
این پیکره با نام «کلان‌پیکره فارسی ترگمان» (Targoman Large Persian Corpus) در اختیار عموم محققین و توسعه‌دهندگان ابزار‌های پردازش زبان فارسی قرار گرفته است. این پیکره علاوه بر حجم بسیار زیاد دارای ویژگی‌های منحصر به فردی است. به عنوان مثال هر سند به صورت مستقل ذخیره شده و به ازای هر سند فراداده‌های مرتبط استخراج و در سند مربوطه ذخیره شده‌اند که با استفاده از این فراداده‌ها می‌توان انواع خروجی‌های مورد نظر را از پیکره بدست آورد. همچنین هر سند در حداقل یک و حداکثر ۳ سطح دسته‌بندی شده است و می‌توان به سهولت متنها در دسته‌های مختلف را جدا کرد. ضمن اینکه متن محاوره و رسمی از هم تفکیک شده‌اند.

کلان‌پیکره ترگمان در ابتدا با هدف استفاده در گروه مشارکت توسعه مدل زبانی فارسی متشکل از چهار شرکت پردازش هوشمند ترگمان، داده‌پردازان مبتکر آکام، عصر فناوری دانش و پردازش اطلاعات مالی پارت، اما به صورت مستقل ایجاد شد و پس از بهره‌برداری موفق در توسعه مدل‌زبانی بزرگ پایه برای مراحل بعدی توسعه مدل زبانی از نوع insruction tunning مورد توسعه و گسترش قرار گرفت. در حال حاضر مهمترین بهره‌بردار این پیکره عظیم گروه مشارکت هوش‌آفرین و مجموعه مدل‌های زبانی مورد توسعه در این گروه می‌باشد. همچنین نسخه محدودی از این پیکره (در حدود ۱۳ میلیارد کلمه) در اختیار مرکز فراداده مرکز ملی فضای مجازی قرار گرفت تا در هکاتون توسعه مدل‌های زبانی بزرگ مورد استفاده قرار گیرد.

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.