قدم بعدی هوش مصنوعی در سال ۲۰۲۴ چیست؟
پیشبینیها در رابطه با دستاوردهای هوش مصنوعی در سال ۲۰۲۴ با توجه به رشد سریع این فناوری شدت گرفته است. چندوجهی بودن چتباتها، قانونگذاریهای جدید و شدید از سمت سیاستگذاران، تغییر بزرگ و مثبت داروسازی و تحت فشار قرار گرفتن شرکتهای بزرگ از سوی استارتاپهای متن باز از اصلیترین مواردی است که سال گذشته مطرح شد. اما این همه ماجرا نیست. تاثیر هوش مصنوعی شامل ابعاد دیگری هم شده است که کمتر از آنها گفته شده است. سفارشیشدن چتباتها، تغییر تولیدات و وفور اطلاعات نادرست در این باره عناوین برجسته و مورد توجهی است.
به گزارش پیوست، این موارد مطرح شده شامل تغییرات گستردهای بودند و تاثیرات قابل توجهی را در حیطه مربوطه رقم زدند. در ادامه به نظرات و گفتههای کارشناسان این حوزه را درباره چشمانداز هوش مصنوعی در سال ۲۰۲۴ میپردازیم.
چتباتهای سفارشی شده
در سال ۲۰۲۴، شرکتهایی که سرمایهگذاری سنگینی روی هوش مصنوعی مولد کردهاند، تحت فشار قرار میگیرند که ثابت کنند محصولاتشان درآمدزا است. غولهای هوش مصنوعی مثل گوگل بارد و OpenAI برای این کار قمار بزرگی کردهاند تا کوچک کار کنند. هر دو در حال توسعه پلتفرمهای کاربرپسندی هستند که افراد را قادر میسازد تا مدلهای زبانی قدرتمند را سفارشی کرده و مینی چتباتهای خود را بسازند. چتباتهایی که مخصوص نیازهای شما و بدون کدنویسی ساخته میشود. هر دو، ابزار وبمحوری را به راه انداختهاند که هر کسی را به توسعهدهنده نرمافزار هوش مصنوعی مولد تبدیل میکند.
در سال ۲۰۲۴، هوش مصنوعی مولد واقعا برای فرد غیرفنی و معمولی، کاربردی میشود و افراد میتوانند میلیونها مدل زبانی کوچک را سرهم کنند. وضعیت مدلهای هوش مصنوعی هنری مانند GPT-4 و جمینی، چند وجهی است؛ یعنی آنها غیر از متن، میتوانند تصویر و ویدیو را نیز پردازش کنند. این ویژگی، قفل کلی اپ جدید را باز میکند. برای مثال، املاکیها میتوانند متنی از لیست قبلی خود آپلود کنند و مدل قدرتمندی برای تولید متن مشابه با یک کلیک بسازند. سپس، ویدیو و تصاویر لیست جدید را بارگذاری کرده و از هوش مصنوعی سفارشی شده خود بخواهند تا توضیحات ملک را تولید کند.
اما البته موفقیت این مدلها بستگی به این دارد که کارکرد مطمئنی داشته باشد. مدلهای زبانی اغلب بهانه میآورند و مدلهای مولد نیز با سوگیری همراه هستند. هک کردن آنها نیز ساده است. مخصوصا اگر اجازه گشتن در وب را داشته باشند. شرکتهای فناوری هیچ یک از این مشکلات را حل نکرده است. وقتی هیجانات فروکش میکند، آنها باید راهحلهایی را برای مقابله با این مشکلات پیش پای مشتریان خود بگذارند.
موج دوم هوش مصنوعی مولد، ویدیو خواهد بود
سرعت تبدیل فانتزیهای ما به واقعیت بسیار شگفتانگیز است. اولین مدلهای مولد برای تولید تصاویر واقعگرا در سال ۲۰۲۲ به جریان اصلی جامعه وارد شد و سریع رواج پیدا کرد. ابزاری مانند دالای از OpenAI، استیبیلیتی از استیبل دیفیوژن و فایرفلای از ادوبی با عکسهای بینظیرشان، از پاپ در بالنسیاگا گرفته تا عکس برنده جایزه، اینترنت را تسخیر کرد. با اینحال، همهچیز صرفا سرگرمکننده نیست. برای هر تصویر سگ پاپی که لباس صورتی پوشیده، تصویر فانتزی تاریک یا استریوتایپ جنسیتزدهای نیز وجود دارد.
مرز بعدی که در هم میشکند، تبدیل متن به ویدیو است. هرچیز خوب، بد و زشتی را که درباره تبدیل متن به تصویر شنیدهاید در ذهن داشته باشید و آن را چند برابر کنید.
سال گذشته، تلاش مدلهای هوش مصنوعی مولد را برای چسباندن چند تصویر بههم و تولید ویدیوی چند ثانیهای دیدیم. نتایج بسیار بد و نامرتب بود، اما فناوری به سرعت پیشرفت میکند و در تلاش برای رفع این نقص قرار میگیرد.
Runway، استارتاپی است که مدلهای مولد ویدیو را میسازد و شرکت همکار در ساخت استیبل دیفیوژن بهشمار میرود. رانوی، نسخه جدید ابزارهای خود را هر چند ماه یکبار منتشر میکند. آخرین مدل این استارتاپ، بهنام Gen-2، هنوز در حال ساخت ویدیوهای چند ثانیهای اما با کیفیت بالا است. بهترین کلیپهای آن فاصله چندانی با خروجیهای پیکسار ندارد.
Runway جشنوارهای را برای فیلمهای ساخته هوش مصنوعی بهطور سالیانه برگزار میکند که فیلمهای سینمایی آزمایشی ساخته شده با چندین ابزار هوش مصنوعی را نمایش میدهد. جشنواره امسال جایزه ۶۰ هزار دلاری داشت و ۱۰ فیلم برتر، در نیویورک و لسآنجلس به روی پرده رفتند.
تعجبی ندارد که توجه استودیوهای برتر جلب شده باشد. غولهای صنعت فیلمسازی مانند پارامونت و دیزنی، در جستوجوی راهی برای استفاده از هوش مصنوعی مولد در خط تولید خود هستند. از فناوری برای تنظیم لبزدن بازیگران در نمایشهای خود استفاده میشود تا دوبله به زبانهای مختلف طبیعیتر بهنظر برسد. کارهایی که با جلوههای ویژه میتوانیم انجام دهیم نیز در حال اختراع مجدد است. هریسون فورد در سال ۲۰۲۳، برای فیلم جدید ایندیانا جونز به استفاده از فناوری جوانسازی صورت دیپفیک روی آورد. اینها فقط نقطه شروع است.
از پرده نمایش که دور شویم، فناوری دیپفیک برای اهداف بازاریابی و آموزشی نیز استفاده میشود. برای مثال، Synthesia واقع در انگلستان ابزاری ساخته که میتواند یک بار نمایش بازیگر را به جریانی بیپایان از آواتارهای دیپفیک تبدیل کند. هر فیلمنامهای را که به آن بدهید، با یک دکمه اجرا میکند. براساس آمار این شرکت، ۴۴ درصد شرکتهای فورچون۱۰۰، از فناوری آن بهره میبرند.
توانایی انجام کار زیاد با تلاش کم، سوالات زیادی را برای بازیگران بهوجود آورده است. نگرانیها درباره استفاده و سوءاستفاده از هوش مصنوعی، محور اصلی اعتصابات SAG-AFTRA در سال گذشته بود. تاثیر واقعی فناوری تازه در حال پدیدار شدن است. سوکی مهدائویی، فیلمساز مستقل و همبنیانگذار Bell & Whistle، مشاوری متخصص در فناوریهای خلاق است که میگوید:« هنر فیلمسازی از اساس در حال تغییر است.»
اطلاعات نادرست هوش مصنوعی مولد درباره انتخابات همهجا خواهد بود
اگر انتخابات قبلی را معیار در نظر بگیریم، اطلاعات نادرست تولیدشده هوش مصنوعی درباره انتخابات و دیپفیکها به مشکل بزرگی تبدیل خواهد شد، زیرا تعداد بیسابقهای از مردم در نظرسنجیهای ۲۰۲۴ شرکت میکنند. در حال حاضر سیاستمدارانی را میبینیم که این ابزار را تبدیل به سلاح خود کردهاند. دو نفر از کاندیداهای انتخاباتی در آرژانتین، تصاویر و ویدیوهایی از رقیب خود با هوش مصنوعی ساختند تا به آنها حمله کنند. در اسلواکی، دیپفیکهایی از رهبر حزب لیبرال طرفدار اروپا با مضمون تهدید به افزایش قیمت آبجو در طول انتخابات کشور حاشیهساز شد. دونالد ترامپ در آمریکا نیز گروهی را تشویق کرد که از هوش مصنوعی برای تولید میمهای نژادپرستانه و جنسیتزده استفاده میکردند.
اندازهگیری میزان تاثیر اینگونه مثالها روی خروجی انتخابات دشوار است، اما افزایش آن روند نگرانکنندهای محسوب میشود. تشخیص محتوای واقعی و صحیح در فضای آنلاین هر روز سختتر میشود. در فضای ملتهب و چندقطبی سیاست، این موارد میتواند عواقب مختلفی داشته باشد.
همین چند سال پیش، ساختن دیپفیک نیازمند مهارتهای فنی پیشرفتهای بود؛ اما هوش مصنوعی مولد این کار را بهطرز احمقانهای ساده و در دسترس کرده و خروجیها هر روز واقعیتر بهنظر میرسد. حتی منابع معتبر نیز میتواند فریب محتوای تولید هوش مصنوعی را بخورد.
سال پیشرو برای کسانی که در حال مبارزه با افزایش چنین محتواهایی هستند، چرخش خواهد داشت. روشهای ردگیری و کاهش محتوا هنوز در روزهای اول توسعه خود است. واترمارکهایی مانند SynthID از گوگل دیپمایند هنوز داوطلبانه است و کاملا بیاشتباه نیست. پلتفرمهای شبکههای اجتماعی نیز در تشخیص اطلاعات نادرست وحشتناک و کند هستند. آماده تجربه حجم عظیمی از اخبار جعلی تولید شده توسط هوش مصنوعی باشید.
رباتهایی که چند کار انجام میدهند
رباتسازان با الهام از تکنیکهای اصلی پشت هوش مصنوعی مولد، شروع به ساخت رباتهای عمومیتری کردهاند که کارهای گستردهتری انجام میدهد.
چند سال گذشته در صنعت هوش مصنوعی شاهد تغییر موضع از مدلهای چندگانه کوچک که برای کارهای متفاوت آموزش دیده بودند مانند شناسایی تصاویر، طراحی آن و کپشن نوشتن برای آن، به مدلهای یکتا و یکپارچه بودیم که برای انجام همه این کارها و فراتر از آن آموزش دیدهاند. محققان با نشان دادن چند مثال اضافه به GPT-3 از شرکت OpenAI توانستند این هوش مصنوعی را برای حل مسائل کدنویسی، نوشتن فیلمنامه سینمایی، قبولی در امتحان زیستشناسی دبیرستان و غیره آموزش دهند. مدلهای چندوجهی مانند GPT-4 و جمینی از دیپ مایند گوگل میتواند تسکهای بصری و زبانشناسی را حل کنند.
همین رویکرد برای رباتها نیز بهکار میرود؛ بنابراین لازم نیست یکی را برای برگرداندن پنکیک و دیگری را برای بازکردن در آموزش دهیم. یک مدل مناسب همه به رباتها قدرت میدهد تا چندین کار انجام دهند. چندین مثال از این حوزه در سال ۲۰۲۳ رخ داد.
دیپمایند در اکتبر، روبوکت (بهروزرسانی برای Gato) را منتشر کرد که دادههای خود را از آزمون و خطا تولید میکند تا چگونگی کنترل بازوهای مختلف ربات را یاد بگیرد.
این شرکت در همان اکتبر، مدل عمومی دیگری را برای رباتها، بهنام RT-X و مجموعه داده بزرگ و جدیدی را با هدف آموزش عمومی به کمک ۳۳ آزمایشگاه دانشگاهی منتشر کرد. تیمهای تحقیقاتی برتر دیگر، مانند RAIL (Robotic Artificial Intelligence and Learning) در دانشگاه کالیفرنیا، برکلی نیز بهدنبال چنین فناوری هستند.
مشکل، کمبود دادهها است. هوش مصنوعی مولد از مجموعه دادهای به بزرگی اینترنت و متشکل از متن و تصویر استفاده میکند. در مقایسه، رباتها منابع داده خوب بسیار کمی دارند که به آنها در یادگیری انجام کارهای صنعتی و خانگی کمک کند.
لرل پینتو در دانشگاه نیویورک، یکی از تیمهای این حوزه را هدایت میکند. او و همکارانش در حال توسعه تکنیکهایی هستند که به ربات اجازه میدهد تا با آزمون و خطا، مجموعه داده خود را برای آموزش بسازند. پینتو حتی در پروژهای کوچکتر، چندین داوطلب را جمع کرده تا دادههای ویدیویی را از اطراف خانههایشان جمعآوری کنند. آنها این کار را با دوربین آیفون نصب شده روی اشغالگیر انجام میدهند. شرکتهای بزرگی مانند Meta Ego4D در چند سال گذشته نیز شروع به انتشار مجموعه دادهها برای آموزش رباتها کردهاند.
این رویکرد در خودروهای بیراننده نیز وعده داده شده است. استارتاپهایی مانند Wayve، Waabi و Ghost پیشگام موج جدیدی از هوش مصنوعی خودران هستند که از یک مدل بزرگ برای کنترل وسیله نقلیه بهجای مدلهای کوچکتر چندگانه برای کنترل تسکهای رانندگی مشخص استفاده میکنند. این رویکرد به شرکتهای کوچک اجازه میدهد تا پا به پای غولهایی مانند Cruise و Waymo حرکت کنند. Waymo هماکنون در حال آزمایش ماشینهای بیراننده خود در خیابانهای محدود و شلوغ لندن است. رباتها در همهجا در حال پیشرفتی مشابه هستند.
چتباتهای سفارشی شده، قابلیتهای هوش مصنوعی مولد، اطلاعات نادرست و فعالیتهای متعدد رباتها موضوعاتی است که در سال پیشرو باعث بروز تغییرات قابل توجهی خواهد شد.