مدل جدید هوش مصنوعی متا با تماشای ویدیوها یاد میگیرد
محققان متا مدل تازهای را منتشر کردند که روند آموزشی متفاوت از مدلهای بزرگ زبانی دارد. این مدل با تماشای ویدیو و خیلی شبیهتر به انسان و موجودات زنده یاد میگیرد. مدیر هوش مصنوعی متا پیشتر به محدودیتهای هوش مصنوعی امروز در مقایسه با انسان و دیگر موجودات زنده اشاره کرده بود و این نوآوری شاید گام بزرگی به سوی آینده باشد.
در چند روزی که گذشت سه غول هوش مصنوعی از نوآوریهای خود رونمایی کردند. اوپنایآی از مولد ویدیویی به نام سورا پرده برداشت و گوگل هم جمینی ۱.۵ را عرضه کرد. شرکت متا هم که رویکردی متنباز را برخلاف دو شرکت دیگر در پیش گرفته حالا از مدلی به نام V-JEPA رونمایی کرده و می گوید روش یادگیری آن شبیهتر به موجودات زنده است.
به گفته متا این مدل گامی در جهت ساخت سیستمهایی است که میتوانند جهان فیزیکی را درک کنند زیرا قابلیت یادگیری از ویدیو را دارد. مدلهای زبانی بزرگ معمولا براساس تعداد زیادی جمله و عبارت آموزش داده میشوند و در روند آموزش مدل یاد میگیرد که چطور جاهای خالی و پنهان شده یک جمله را پر کند. به این ترتیب میتواند رفتهرفته یک سری از کلمات را در محتملترین حالتش کنار هم بچیند و جملاتی معنادار تشکیل دهد.
یان لکان، رئیس هوش مصنوعی متا که پیشتر به محدودیتهای تکیه بر محتوای متنی و یادگیری از این طریق اشاره کرده بود میگوید اگر مدلهای هوش مصنوعی بتوانند به جای کلمه از تصویر ویدیویی استفاده کنند، سرعت یادگیری بیشتر میشود.
او میگوید: «هدف ما ساخت ماشین هوش مصنوعی پیشرفتهای است که شبیهتر به انسانها یاد بگیرد و مدلهای داخلی جهان اطراف را تشکیل داده و بتواند یاد بگیرد، خود را انطباق دهد و به گونهای کارآمد برای تکمیل وظایف پیچیده برنامهریزی کند.»
یکی از نکات جالب روند یادگیری مدل این است که ویدیوهای به کار رفته در روند آموزش نشانهگذاری نشدهاند. در فرایند یادگیری بخشی از تصویر و زمان ویدیو از چشم مدل پنهان میشود و بدون نشانهگذاری این مدل میآموزد که بخش پنهان شده احتمالا چه چیزی بوده است (اگر یک انسان ابتدای افتادن سیب از درخت و سپس سیبی روی زمین را ببیند، به راحتی میتواند بخش نادیده را تصور و پازل را تکمیل کند.)
نکته مهم دیگر اینکه V-JEPA یک مدل مولد نیست و مدلی مفهومی از جهان تولید میکند. محققان متا میگویند V-JEPA، پس از یک پیش آموزش با استفاده از مخفی کردن بخشها و زمانهایی از ویدیو «در شناسایی و درک روابط پیچیده بین اشیا تبحر پیدا میکند.»
لکان معتقد است که ناتوانی مدلهای بزرگ زبانی در یادگیری به واسطه دیدن و شنیدن، سرعت حرکت به سمت هوش مصنوعی عمومی یا ابزاری هوشمندتر از انسان را کاهش میدهد.
گام بعدی متا پس از V-JEPA، اضافه کردن صوت به تصویر است که در نتیجه آن بعد تازهای از دادهها در اختیار مدل قرار میگیرد. به گفته غول شبکه اجتماع، این مدل براساس جواز غیرتجازی Creative Commons عرضه شده تا محققان بتوانند آن را بررسی کنند و حتی توانمندیهای آن را توسعه دهند.