هوش مصنوعی، آزمون تورینگ را شکست داده است
چتباتها حالا در بازی تقلید مشهور ریاضیدان سرشناس آلن تورینگ، موفق ظاهر میشوند و اما تقلید، هرگز به معنی هوش نبوده است. با این وجود آیا نیاز به گزینهای جایگزین برای آزمون تورینگ داریم؟
امروزه پیشرفتهترین مدلهای هوش مصنوعی (AI) بهراحتی از آزمون تورینگ عبور میکنند؛ آزمایشی فکری که میپرسد آیا یک رایانه میتواند از راه گفتوگوی متنی، خود را جای انسان جا بزند یا خیر.
به نقل از نیچر، برخی، نسخه پیشرفتهتری از این آزمون را معیاری ضروری برای سنجش پیشرفت بهسوی «هوش مصنوعی عمومی» (AGI) میدانند که اصطلاحی مبهم است که بسیاری از شرکتهای فناوری برای اشاره به سامانهای به کار میبرند که بتواند در هر زمینهای به اندازه انسان انعطاف ذهنی داشته باشد. اما در رویدادی که روز دوم اکتبر در «انجمن سلطنتی لندن» برگزار شد، چند پژوهشگر گفتند که باید آزمون تورینگ را کاملا کنار گذاشت و در عوض تمرکز را بر ارزیابی ایمنی هوش مصنوعی و ساخت تواناییهای خاصی گذاشت که به سود عموم باشند.
انیل سِث، عصبشناس دانشگاه ساسکس در برایتون، بریتانیا، میگوید: بیایید بفهمیم چه نوع هوش مصنوعی میخواهیم و بعد همان را بسنجیم. تمرکز بر این مسیر بهسوی هوش عمومی مصنوعی، در واقع تخیل ما را درباره نوع سیستمهایی که میتوانیم در جامعه داشته باشیم یا نباید داشته باشیم، محدود میکند.
این رویداد به مناسبت هفتاد و پنجمین سالگرد انتشار مقاله مهم «آلن تورینگ»، ریاضیدان بریتانیایی برگزار شد. مقالهای که در آن این آزمون را معرفی کرد و آن را «بازی تقلید» نامید. تورینگ در آن مقاله به پرسش فلسفیِ دشوار «آیا ماشینها میتوانند فکر کنند؟» پرداخت. در این بازی، داور در چند گفتوگوی کوتاه متنی با یک انسان یا یک ماشین شرکت میکند و اگر ماشین بتواند داور را قانع کند که انسان است، برنده میشود.
رویکرد کمهیاهوی نشست به موضوع هوش ماشینی با استقبال روبهرو شد. در این رویداد ظرفیت سالن پر شده بود و بسیاری نیز آن را به صورت زنده تماشا میکردند.
مارکس در سخنرانی اصلی گفت: شاید ایده هوش عمومی مصنوعی اصلا هدف درستی نباشد، حداقل در حال حاضر نباشد. او افزود: بعضی از بهترین مدلهای هوش مصنوعی مانند آلفافولد (AlphaFold) بسیار تخصصیاند. آلفافولد سامانه پیشبینی ساختار پروتئین شرکت دیپمایند (DeepMind) گوگل است. این مدل فقط یک کار انجام میدهد.
فراتر از تورینگ
آزمایش سرگرمکننده تورینگ اغلب به عنوان معیاری برای سنجش هوش ماشینی در نظر گرفته شده، اما به گفته سارا دیلون، پژوهشگر ادبیات در دانشگاه کمبریج که آثار تورینگ را مطالعه میکند، تورینگ هرگز قصد نداشت آن را آزمونی جدی یا عملی بداند.
امروزه توانمندترین سامانههای هوش مصنوعی، نسخههای پیشرفته مدلهای زبانی بزرگ (LLM) هستند که بر پایه پیشبینی متن و الگوهای زبانی یادگرفتهشده از دادههای اینترنتی عمل میکنند. در ماه مارس، پژوهشگران چهار چتبات را در نسخهای از آزمون تورینگ آزمایش کردند و دریافتند که بهترین مدلها توانستند از آن بگذرند.
بااینحال، اینکه چتباتها بتوانند بهخوبی سخن بگویند، به معنای داشتن درک واقعی از سوی آنها نیست. پاسخهای مدلهای زبانی بزرگ میتواند به طور حیرتانگیزی انسانی بهنظر برسد، اما وقتی از محدوده معمول پرسشهایشان خارج شوید، کاملا به دردسر میافتند. مارکس بهعنوان مثال میگوید که برخی مدلها نمیتوانند اجزای بدن فیل را درست نامگذاری کنند، یا عقربههای ساعت را جز در موقعیت خاصی رسم کنند. به همین دلیل، این مدلها هنوز هم ممکن است در آزمون تورینگ شکست بخورند، اگر داوری آگاه از ضعفهایشان آنها را بیازماید.
با وجود این، پیشرفت سریع سیستمهای مبتنی بر مدلهای زبانی بزرگ در زمینههای گوناگون، بهویژه در کارهای استدلالی، موجب شده برخی گمان کنند که شاید ماشینها بهزودی در آزمونهای شناختی به سطح انسان برسند. برای سنجش تواناییهای فزاینده هوش مصنوعی و مهارتهای غیرزبانی، پژوهشگران در پی ساخت آزمونهای دشوارتری هستند. چنین آزمونهایی معمولا بهعنوان نقاط عطف در مسیر رسیدن به هوش عمومی مطرح میشوند، اما پژوهشگران درباره هیچ معیار واحدی برای تحقق هوش عمومی مصنوعی اتفاقنظر ندارند.
مارکس میگوید که ارزیابی مناسبتر میتواند چیزی شبیه «المپیک تورینگ» باشد، شامل حدود دوازده آزمون مختلف که از درک فیلم و فهمیدن آنچه در آن میگذرد گرفته تا دنبالکردن دستورالعملهای مونتاژ یک وسیله چوبی.
شَنِن وَلور، متخصص اخلاق هوش مصنوعی در دانشگاه ادینبرو، توضیح داد که معنای هوش در فرهنگها، محیطها و دورههای مختلف و حتی میان گونههای زیستی متفاوت تغییر میکند. بهجای پرسیدن اینکه آیا ماشین باهوش است، باید بپرسیم دقیقا این ماشین چه میکند؟
به گفته او، تقسیم تواناییهای ماشین به قابلیتهای مجزا مثلا تمرکز فقط بر زبان، نه زبان بهعنوان نشانهای از توان شناختی کمک میکند تا از نسبتدادن صفاتی مانند فهم یا همدلی به هوش مصنوعی پرهیز شود، چرا که این ویژگیها در انسان نشانه هوش هستند، ولی در ماشین الزاما اینطور نیست.
ویلیام آیزاک، پژوهشگر کاربردهای سیاستگذاری عمومی در شرکت گوگل دیپمایند در لندن میگوید که آزمون تورینگ در آینده باید بسنجد که آیا یک هوش مصنوعی ایمن، قابلاعتماد و واقعا سودمند است یا خیر و همچنین باید بررسی کند که چه کسی هزینه این سود را میپردازد. او افزود: بهعنوان دانشمندان، وظیفه داریم بر پایه شواهد تجربی موجود، استدلالهایی دقیق و هدفمند ارائه کنیم که از هیاهوی اغراقآمیز بکاهد.