دیپمایند از هوش مصنوعی V2A رونمایی کرد
برخی مدلهای هوش مصنوعی، مانند Sora و Dream Machine، هرچند عملکرد خارقالعادهای در تولید ویدیو دارند، خروجی آنها بیصداست. اکنون دیپمایند گوگل از هوش مصنوعی درحالتوسعهای به نام «V2A» رونمایی کرده است که برای تولید موسیقی متن و صدا برای فیلمها کاربرد دارد.
دیپمایند فناوری V2A (مخفف «ویدیو به صدا») را بهعنوان قطعهای ضروری از پازل ساخت ویدیو با هوش مصنوعی معرفی میکند. درحالیکه بسیاری از شرکتها، ازجمله دیپمایند، مدلهای هوش مصنوعی تولیدکننده ویدیو را توسعه دادهاند، این مدلها نمیتوانند افکتهای صوتی با قابلیت همگامسازی روی فریمهای ویدیوها را فراهم کنند.
دیپمایند میگوید: «مدلهای تولید ویدیو با سرعتی باورنکردنی درحال پیشرفتاند اما بسیاری از سیستمهای فعلی فقط میتوانند خروجی بیصدا تولید کنند. اکنون فناوری V2A میتواند به ابزاری امیدوارکننده برای زندهکردن این فیلمها تبدیل شود.»
در ویدیوهای این هوش مصنوعی، میبینید این فناوری جدید علاوهبر دیالوگ میتواند موسیقی را متناسب با تصویر تولید کند.
با هوش مصنوعی V2A دیپمایند میتوانید با توصیف صدا (مثلاً غوطهور شدن عروسدریایی زیر آب همراه صدای اقیانوس) به ویدیو خودتان موسیقی، افکتهای صوتی، حتی دیالوگ اضافه کنید. دیپمایند میگوید مدل هوش مصنوعی V2A با ترکیبی از صداها، متنهای دیالوگ و کلیپهای ویدیویی آموزش دیده است.
به گفته دیپمایند، باتوجهبه دادههای مختلف مانند ویدیو، صداها و دیالوگها که V2A با آنها آموزش دیده است، این مدل یاد گرفته صداهای مختلف را با صحنههای ویدیویی مرتبط کند. هنوز مشخص نیست دیپمایند دقیقاً از چه دادههایی برای آموزش V2A استفاده کرده و این دادهها کپیرایت دارند یا خیر.
بهطورکلی ابزارهای تولید صدا با هوش مصنوعی فناوری چندان تازهای نیستند. استارتاپ Stability AI و ElevenLabs نیز پیشازاین از چنین مدلهایی رونمایی کرده بودند. اما دیپمایند ادعا میکند فناوری V2A منحصربهفرد است؛ زیرا میتواند فریمهای ویدیو را درک و صداهای تولیدشده را بهصورت خودکار با ویدیو همگام کند.