برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.
کلانپیکره زبان فارسی ترگمان با ۳۱ میلیارد توکن منتشر شد
کلانپیکره ترگمان تاکنون از طریق خزش ۴۲۲ سایت داخلی به حجم مجوع بیش از ۳۱ میلیارد توکن در قالب بیش از ۵۴ میلیون سند در حوزههای گوناگون رسیده است. ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهرهبرداری از این کلانپیکره را حق بهرهبرداری CC-BY-NC-SA قرار داده است.
کلان پیکره زبان فارسی شرکت پردازش هوشمند ترگمان که با هدف آموزش مدلهای زبانی بزرگ (LLM) مورد استفاده قرار میگیرد دارای بیش از ۳۱ میلیارد توکن است. این کلان پیکره شامل تمامی فرادادههای لازم برای پردازشهای زبان طبیعی است و دادهها در آن با ساختار jsonl. gz منتشر شدهاند تا در هنگام پردازش به کمترین میزان حافظه نیاز باشد.
کلانپیکره ترگمان در نشانی https://huggingface.co/datasets/Targoman/TLPC قرار گرفته و دسترسی به آن نیازمند تأیید است. برای دریافت حق بهرهبرداری غیر تجاری کافی است فرد متقاضی در هاگینگفیس اکانت با لینک به گیتهاب داشته باشد یا در حوزه LLM فعالیت کند.
شرکت پردازش هوشمند ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهرهبرداری از این کلانپیکره را حق بهرهبرداری CC-BY-NC-SA قرار داده است. همچنین این شرکت در تفاهم با ستاد توسعه فناوریهای هوش مصنوعی و رباتیک معاونت علمی، فناوری و اقتصاد دانشبنیان ریاست جمهوری حق بهرهبرداری از این کلانپیکره را به عموم ارگانهای دولتی و شرکتهای دانشبنیان مورد تأیید معاونت علمی اعطا کرده است.
برای اطلاعات بیشتر میتوانید صفحه مربوط به این کلان پیکره را در سایت ترگمان مشاهده کنید.
https://oss.targoman.ir/TLPC/
تا تاریخ ۸ فروردین ۱۴۰۳ بیش از ۴۵۰ سایت داخلی مورد خزش قرار گرفته و از این تعداد محتوای ۴۲۲ سایت بر اساس پیمایش بیش از ۱۷۳ میلیون آدرس استخراج و منتشر شده است. نتیجه این خزشها گردآوری بیش از ۵۴ میلیون سند حاوی بیش از ۳۱ میلیارد توکن در حوزههای مختلف بوده است.
در این کلانپیکره که از آن میتوان برای آموزش مدلهای زبانی استفاده کرد پیوستگی موضوعی متون حفظ شده است و حوزه پوشش پیکره، تنوع کاملی از زبان فارسی را شامل میشود. برای گردآوری این پیکره شرکت پردازش هوشمند ترگمان، یک خزشگر تخصصی برای خزش و استخراج صحیح محتوا از وب فارسی توسعه داد و با توان حدود ۵۰ سرور در طی مدت ۶ ماه، کلانپیکره زبان فارسی را ایجاد کرد.
خزشگر تخصصی ترگمان برای گردآوری این پیکره به صورت کاملاً متنباز و با حق بهرهبرداری LGPL-v۳ از طریق گیتهاب در دسترس است.
https://github.com/Targoman/PersianWebScraperhttps://github.com/Targoman/PersianWebScraper
این پیکره با نام «کلانپیکره فارسی ترگمان» (Targoman Large Persian Corpus) در اختیار عموم محققین و توسعهدهندگان ابزارهای پردازش زبان فارسی قرار گرفته است. این پیکره علاوه بر حجم بسیار زیاد دارای ویژگیهای منحصر به فردی است. به عنوان مثال هر سند به صورت مستقل ذخیره شده و به ازای هر سند فرادادههای مرتبط استخراج و در سند مربوطه ذخیره شدهاند که با استفاده از این فرادادهها میتوان انواع خروجیهای مورد نظر را از پیکره بدست آورد. همچنین هر سند در حداقل یک و حداکثر ۳ سطح دستهبندی شده است و میتوان به سهولت متنها در دستههای مختلف را جدا کرد. ضمن اینکه متن محاوره و رسمی از هم تفکیک شدهاند.
کلانپیکره ترگمان در ابتدا با هدف استفاده در گروه مشارکت توسعه مدل زبانی فارسی متشکل از چهار شرکت پردازش هوشمند ترگمان، دادهپردازان مبتکر آکام، عصر فناوری دانش و پردازش اطلاعات مالی پارت، اما به صورت مستقل ایجاد شد و پس از بهرهبرداری موفق در توسعه مدلزبانی بزرگ پایه برای مراحل بعدی توسعه مدل زبانی از نوع insruction tunning مورد توسعه و گسترش قرار گرفت. در حال حاضر مهمترین بهرهبردار این پیکره عظیم گروه مشارکت هوشآفرین و مجموعه مدلهای زبانی مورد توسعه در این گروه میباشد. همچنین نسخه محدودی از این پیکره (در حدود ۱۳ میلیارد کلمه) در اختیار مرکز فراداده مرکز ملی فضای مجازی قرار گرفت تا در هکاتون توسعه مدلهای زبانی بزرگ مورد استفاده قرار گیرد.