هوش مصنوعی

October 5, 2025

17:23 یکشنبه، 13ام مهرماه 1404

کد خبر: 203139

هواوی از فناوری متن‌باز SINQ برای کاهش مصرف حافظه مدل‌های زبانی بزرگ رونمایی کرد

منبع: پیوست

آزمایشگاه سیستم‌های محاسباتی هواوی در شهر زوریخ از یک روش نوین و متن‌باز رونمایی کرده است که می‌تواند مصرف حافظه در مدل‌های زبانی بزرگ (LLMs) را تا حد قابل توجهی کاهش داده و در نتیجه هزینه سخت‌افزاری را کمتر کند. این روش که بدون افت محسوس در کیفیت خروجی مصرف حافظه را کاشه می‌دهد، اجرای مدل‌های عظیم هوش مصنوعی را بر روی سخت‌افزارهای بسیار ارزان‌تر ممکن می‌کند.

به گزارش ونچربیت،‌ این فناوری که با نام SINQ مخفف عبارت Sinkhorn-Normalized Quantization معرفی شده است، به گفته‌ی تیم پژوهشگران شرکت هواوی، مصرف حافظه مدل‌های زبانی را بین ۶۰ تا ۷۰ درصد کاهش می‌دهد و درنتیجه توسعه‌دهندگان می‌توانند مدل‌هایی که پیش‌تر برای اجرا به بیش از ۶۰ گیگابایت حافظه نیاز داشتند را اکنون در تنظیمات حدود ۲۰ گیگابایتی اجرا کنند.

این کاهش مصرف حافظه، به‌ویژه برای کسانی که مدل‌های زبانی را روی پردازنده‌های گرافیکی بازار مصرفی همچون Nvidia RTX 4090 اجرا می‌کنند، بسیار ارزشمند است.

هواوی می‌گوید هدف از توسعه SINQ،‌ ارائه یک روش سریع، بدون نیاز به کالیبراسیون یا واسنجی است که با محیط‌های فعلی سازگار باشد پژوهشگران و شرکت‌ها بتوانند مدل‌های خود را به‌سادگی فشرده‌سازی و روی سخت‌افزارهای معمولی اجرا کنند.

کاهش چشمگیر هزینه‌های سخت‌افزاری و ابری: RTX به جای H100
پیش از معرفی SINQ، اجرای مدل‌های زبانی بزرگ متن‌باز مانند Qwen3 یا LLaMA تنها بر روی پردازنده‌های گرافیکی پرقدرت سازمانی مانند A100 یا H100 شرکت انویدیا امکان‌پذیر بود که قیمت هرکدام بین ۱۹ تا ۳۰ هزار دلار متغیر است.

اما SINQ به پژوهشگران اجازه می‌دهد تا همین مدل‌‌ها را با پردازنده‌ای گرافیکی ارزان‌قیمت که بیشتر مصرف گیمینگ دارند، به اجرا بگذارند. برای مثال با استفاده از این روش می‌توان از پردازنده RTX 4090 برای اجرای مدل‌ها استفاده کرد که قیمت آن حدود ۱۶۰۰ دلار است و در نتیجه هزینه سخت‌افزار به کمتر از یک‌دهم سطح قبلی کاهش پیدا می‌کند.

تاثیر این مدل بر محیط‌های ابری نیز جالب توجه است. به عنوان مثال، اجاره‌ی پردازنده‌های گرافیکی A100 در سرویس‌های ابری حدود ۳ تا ۴.۵ دلار در ساعت هزینه دارد، در حالی که کارت‌هایی مانند RTX 4090 معمولا با هزینه‌ ۱ تا ۱.۵ دلار در ساعت اجاره داده می‌شوند برای تیم‌هایی که به‌صورت طولانی‌مدت مدل‌های زبانی را اجرا می‌کنند، این تفاوت به معنای صرفه‌جویی هزاران دلار هزینه ماهانه است.

چالش حافظه در مدل‌های زبانی
مدل‌های زبانی بزرگ به دلیل ساختار پیچیده‌شان، برای نگهداری و پردازش میلیاردها پارامتر به حافظه‌ی عظیمی نیاز دارند. این پارامترها معمولا به صورت اعداد اعشاری با دقت بالا ذخیره می‌شوند تا بتوانند مقادیر بسیار کوچک یا بزرگ را به‌طور دقیق نمایش دهند.

روش کوانتیزاسیون (Quantization) برای کاهش این مصرف حافظه ابداع شده است. در این فرآیند، دقت اعداد کاهش می‌یابد (مثلا از ۱۶ بیت به ۸ یا حتی ۴ بیت) اما کاهش بیش‌ازحد دقت، معمولا به افت کیفیت و خطا در نتایج منجر می‌شود.

به همین دلیل پژوهشگران هواوی در روش SINQ راه‌حلی میان‌بر ارائه کرده‌اند تا در عین مصرف حافظه کمتر، دقت داده‌های ذخیره‌ شده حفظ شود. این روش با استفاده از الگوریتمی الهام‌گرفته از نرمال‌سازی Sinkhorn-Knopp و بهره‌گیری از مقیاس‌پذیری دو‌محوره (Dual-Axis Scaling) برای هر ردیف و ستون از ماتریس وزن‌ها، توازن خطا را حفظ کرده و از بروز خطاهای شدید جلوگیری می‌کند.

به همین ترتیب SINQ توانسته است در بنچ‌مارک‌های رایجی مانند WikiText2 و C4، دقتی نزدیک به مدل‌های کامل را حفظ کند و در عین حال مصرف حافظه را تا دو‌سوم کاهش دهد.

سرعت و کارایی بالا
بر اساس نتایج منتشرشده، روش SINQ در مقایسه با سایر روش‌های رایج، عملکرد بسیار خوبی را به نمایش می‌گذارد. این روش حدود دو برابر سریع‌تر از HQQ در فرایند کوانتیزاسیون عمل می‌کند و بیش از ۳۰ برابر سریع‌تر از AWQ است، در حالی که کیفیت خروجی را در سطحی نزدیک به مدل‌های پر‌دقت نگه می‌دارد.

همچنین SINQ قابلیت ترکیب با روش‌های کالیبراسیون‌دار مانند AWQ را دارد که نسخه‌ای ترکیبی به نام A-SINQ را ایجاد می‌کند؛ این نسخه در برخی مدل‌ها اختلاف دقت با نسخه‌ی اصلی را تقریبا به صفر کاهش می‌دهد.

پروژه متن‌باز و قابل استفاده عموم
یکی از ویژگی‌های کلیدی پروژه SINQ، انتشار متن‌باز آن با مجوز Apache 2.0 است. این مجوز که امکان استفاده را برای شرکت‌های تجاری نیز فراهم می‌کند، به توسعه‌دهندگان اجازه می‌دهد کد را آزادانه دریافت کرده، تغییر داده و در محصولات تجاری خود به‌کار گیرند.

هواوی کد منبع SINQ را در GitHub و Hugging Face منتشر کرده است. این نسخه شامل ابزارهایی برای کوانتیزاسیون مدل‌های Hugging Face تنها با چند خط کد است و به کاربران امکان می‌دهد پارامترهایی مانند bit-width، استراتژی tile و اندازه گروه‌ها را تنظیم کنند.

به گفته تیم پژوهشی، نسخه‌های از پیش کوانتیزه‌شده (pre-quantized) از مدل‌های معروف نیز به‌زودی در Hugging Face Hub منتشر خواهند شد.

گامی مهم در دموکراتیزه‌کردن هوش مصنوعی
هواوی در بیانیه خود اعلام کرده است که هدف از توسعه SINQ، فراهم کردن امکان اجرای مدل‌های زبانی بزرگ برای تیم‌ها کوچک و پژوهشگران مستقل است؛ گروه‌هایی که تاکنون به دلیل محدودیت منابع مالی یا سخت‌افزاری قادر به اجرای LLMهای عظیم نبودند.

با رشد سریع تقاضا برای مدل‌های زبانی و نیاز به اجرای آن‌ها روی سخت‌افزارهای مصرفی، ابزارهایی مانند SINQ می‌توانند راه را برای دموکراتیزه شدن فناوری هوش مصنوعی هموار کنند تا در آینده جهان فناوری، دسترسی به مدل‌های قدرتمند دیگر در انحصار شرکت‌های بزرگ نباشد.

+ /
نویسنده: ملکی /
چاپ /
صفحه اصلی

در این زمینه از آرشیو ایستنا:

مشترک شوید!

برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.