هوک چپ گوگل به اوپنایآی
نبرد غولهای فناوری این بار به دنیای تصویر و سرگرمی کشیده شده است؛ جایی که شرکتهایی مانند گوگل و اوپنایآی تلاش میکنند با ابزارهای تولید ویدئو و تصویر هوش مصنوعی نسل جوان را مجذوب خود کنند.
کارشناسان حوزه فناوری معتقدند که این رقابت در نهایت میتواند مرز میان تصویر واقعی و تولید ماشینی را کمرنگتر کند و به جهشی تازه در خلق جلوههای بصری منجر شود.
ویدئوی طولانیتر، روایت پیوستهتر
بازار مدلهای تولید ویدئو با هوش مصنوعی این روزها داغتر از همیشه است. پس از آنکه اوپنایآی با معرفی نسل دوم مدل Sora نگاهها را به سوی خود جلب کرد، حالا گوگل با رونمایی از Veo ۳.۱ تلاش میکند سهم خود را از این میدان بهسرعت پس بگیرد. نسخه جدید Veo نهتنها از نظر فنی ارتقا یافته، بلکه نشان میدهد گوگل در حال بازتعریف راهبرد خود برای رقابت با Sora و سایر بازیگران این حوزه است.
به گزارش تکرادار، مدل Veo ۳.۱ قادر است ویدئوهایی با طول تا یک دقیقه تولید کند؛ رقمی که در حوزه مدلهای هوش مصنوعی ویدئوساز گامی بزرگ بهشمار میآید. این نسخه با افزودن قابلیتهای چندصحنهای (multi-shot) و تثبیت شخصیتها در طول روایت بهطور محسوسی کیفیت و انسجام بصری خروجیها را افزایش داده است. در مدلهای پیشین تغییرات ناگهانی در چهره، نور یا حرکت کاراکترها از مشکلات رایج بود، اما گوگل وعده داده این چالشها را در نسخه جدید برطرف کرده است.
علاوه بر این Veo ۳.۱ از رزولوشن۱۰۸۰p پشتیبانی و با بهبود الگوریتمهای بینفریمی انتقال بین نماها را نرمتر و طبیعیتر میکند. این قابلیتها باعث شده Veo به ابزاری مناسبتر برای تولید محتوای سینمایی و تبلیغاتی تبدیل شود، درحالیکه بسیاری از رقبا هنوز بر تولید کلیپهای کوتاهتر تمرکز دارند.
گزارش منتشرشده در Bitget نیز حاکی از آن است که گوگل در این نسخه توجه ویژهای به هماهنگی میان صوت و تصویر داشته است. حالا Veo ۳.۱ میتواند افکتهای محیطی، گفتوگو و حتی حس فضا را با تصویر هماهنگ کند. قابلیتی که اگر بهدرستی عمل کند یک گام فراتر از Sora محسوب میشود.
گوگل برای افزایش کنترل کاربر سه ماژول خلاقانه جدید با نامهای Ingredients، Frames و Extend معرفی کرده است. این ماژولها امکان ترکیب صحنهها، ادامه ویدئوها و تنظیم دقیق ریتم روایی را به کاربرمیدهند. به این ترتیب Veo ۳.۱ از یک ابزار صرفا خودکار به پلتفرمی تبدیل میشود که میتواند به ابزار کارگردانی هوش مصنوعی برای پروژههای حرفهای بدل شود.
رقابت با هزینه کمتر
در این میان گوگل علاوه بر بهبود فنی در مدل اقتصادی Veo نیز تغییر ایجاد کرده است. نسخه جدید با دو حالت قیمتگذاری عرضه میشود؛ در حالت «سریع» هزینه تولید ۰.۱۵ دلار به ازای هر ثانیه و در حالت استاندارد حدود ۰.۴ دلار برآورد میشود. طبق گزارش Bitget این رقم در مقایسه با نسخه حرفهای Sora ۲ میتواند تا دو برابر ارزانتر باشد. عاملی که بهویژه برای تولیدکنندگان محتوای مستقل و شرکتهای تبلیغاتی جذاب است.
در مقابل Sora ۲ همچنان در تجربه کاربری و سهولت استفاده مزیت دارد. کاربران میتوانند با چند جمله کوتاه و بدون تنظیمات پیچیده ویدئوهایی سریع و چشمنواز تولید کنند. همین سادگی باعث شده است Sora در میان کاربران شبکههای اجتماعی محبوبتر باشد. هرچند ضعف آن در ثبات کاراکترها و کنترل کارگردانی محدودیتهایی برای کاربردهای حرفهای ایجاد کرده است.
گوگل اعلام کرده Veo ۳.۱ از طریق جمنای، Vertex A و APIهای اختصاصی در دسترس قرار خواهد گرفت. این تصمیم بخشی از راهبرد کلی گوگل برای ادغام ابزارهای هوش مصنوعی خود در یک اکوسیستم منسجم است؛ رویکردی که به شرکتها و توسعهدهندگان اجازه میدهد از یک پلتفرم واحد برای تولید متن، تصویر و ویدئو استفاده کنند.
کارشناسان معتقدند این همگرایی میتواند نقطه تمایز گوگل در رقابت با اوپنایآی باشد. در حالیکه Sora فعلا بهصورت محدود و بدون دسترسی باز عرضه شده است Veo ۳.۱ احتمالا از مسیر API و پلتفرمهای ابری گوگل در دسترس طیف وسیعتری از کاربران قرار میگیرد.
در این میان، ایلان ماسک و پلتفرم گراک نیز تلاش دارند سهمی از بازار ابزارهای تولید محتوای هوش مصنوعی بهدست آورند. ماسک اخیرا برای جذب کاربران بیشتر بخش تولید تصویر(Image Generator) در گراک را رایگان کرده است تا بتواند جایگاهی در رقابت با اوپنایآی و گوگل پیدا کند.
با این حال بهنظر میرسد گراک برخلاف چتبات اصلی خود که با استقبال اولیه مواجه شد در حوزه تولید محتوای بصری نتوانسته توجه کاربران را جلب کند. تحلیلگران میگویند مشکل گراک در این است که هنوز اکوسیستم منسجم و زیرساخت محاسباتی گوگل یا اوپنایآی را ندارد. در نتیجه اگرچه تصمیم ماسک برای رایگانسازی بخشهای تصویری میتواند تلاشی برای حفظ مخاطب باشد، اما بعید است در کوتاهمدت جایگاه رقابتی آن را تقویت کند.
آینده رقابت؛ کیفیت یا سرعت؟
با ورود Veo 3.1 رقابت در بازار تولید ویدئوهای هوش مصنوعی وارد مرحله تازهای شده است. Sora 2 با تمرکز بر سرعت و تجربه کاربر عادی پیشتاز محتواهای کوتاه و شبکهای است، در حالی که Veo 3.1 میکوشد کیفیت، کنترل و واقعگرایی را به سطحی جدید برساند. در این میان اگر وعدههای گوگل درباره هماهنگی صوت و تصویر عملی شود Veo میتواند ابزار برگزیده تولیدکنندگان حرفهای محتوا باشد. اما همچنان یک پرسش کلیدی باقی است؛ اینکه ایلان ماسک در این میان چه خواهد کرد.
گراک در مقایسه با غولهای فعلی هنوز مسیر طولانی در پیش دارد، اما تجربه ماسک در ترکیب رسانه، فناوری و بازاریابی نشان میدهد ممکن است بهزودی راهبردی متفاوت برای ورود به این رقابت ارائه کند. حالا باید دید در این نبرد پرهیاهوی ویدئوهای هوش مصنوعی حرکت بعدی ماسک چه خواهد بود و آیا او میتواند به اندازه گوگل و اوپنایآی در شکلدادن آینده خلاقیت دیجیتال نقشآفرینی کند یا خیر.