امکان ساخت ویدویوهای هوش مصنوعی با کارتهای گرافیک اقتصادی
با فناوری هوش مصنوعی FramePack میتوان حتی با کارتهای گرافیک ۶ گیگابایتی، روی کامپیوتر شخصی و بدوننیاز به سرویسهای ابری، ویدیو تولید کرد.
لومین ژانگ از گیتهاب با همکاری مانیش آگراوالا از دانشگاه استنفورد، فناوری جدیدی بهنام FramePack معرفی کردند؛ معماری پیشرفتهی هوش مصنوعی که امکان ساخت ویدیوهای طولانی و باکیفیت را حتی با کارتهای گرافیک اقتصادی مجهز به ۶ گیگابایت حافظه فراهم میکند.
FramePack نوعی معماری شبکهی عصبی است که با استفاده از تکنیکهای بهینهسازی چندمرحلهای، تولید ویدیوی مبتنیبر هوش مصنوعی را بهشکل محلی (Local) ممکن میسازد. مدل ۱۳ میلیارد پارامتری توسعهیافته با این معماری میتواند فقط با ۶ گیگابایت VRAM، کلیپ ۶۰ ثانیهای تولید کند؛ چیزی که قبلاً فقط با کارتهای گرافیک پرچمدار ۱۲ گیگابایتی یا بیشتر امکانپذیر بود.
مکانیزم اصلی مدلهای «دیفیوژن» به این صورت است که فریمهای پر از نویز را پردازش میکنند و بهتدریج به فریمهایی با نویز کمتر میرسند؛ اما مدلها به حافظهی گرافیکی زیادی نیاز دارند، زیرا طول زمینهی زمانی (Temporal Context Length) با افزایش زمان ویدیو بیشتر میشود.
FramePack با فشردهسازی هوشمند فریمها بر اساس میزان اهمیتشان، مشکل مدلهای دیفیوژن را برطرف میکند و مصرف VRAM را بهطرز چشمگیری کاهش میدهد. پژوهشگران میگویند هزینهی محاسباتی این روش مشابه مدلهای دیفیوژن تصویر است.
تکنیکهای استفادهشده در FramePack همچنین از کاهش کیفیت تدریجی در ویدیوهای بلندتر، که بهعنوان Drifting شناخته میشود، جلوگیری میکنند. این معماری برای اجرا به کارت گرافیک انویدیا سری RTX 30 ،40 یا 50 با پشتیبانی از فرمتهای FP16 و BF16 نیاز دارد. هنوز اطلاعاتی دربارهی پشتیبانی از کارتهای گرافیک ایامدی یا اینتل منتشر نشده است.
خبر خوب اینکه اکثر کارتهای گرافیک مدرن انویدیا با حداقل ۶ گیگابایت VRAM با معماری FramePack سازگاری دارند. در حالت بهینه، RTX 4090 میتواند ۰٫۶ فریم در هر ثانیه تولید کند و هر فریم بلافاصله پس از پردازش نمایش داده میشود.
اگرچه احتمالاً سرعت مدل FramePack روی ۳۰ فریمبرثانیه محدود شده باشد، این معماری با کاهش وابستگی به سرویسهای سنگین و گرانقیمت ابری، گام بزرگی برای ساخت ویدیو با هوش مصنوعی برداشته است.