مکالمه خصوصی در اتاقهای پر سر و صدا با یک هدفون جدید
هدفونهای «ایزولهکننده مکالمه» مجهز به هوش مصنوعی، امکان مکالمه خصوصی را در اتاقهای پر سر و صدا فراهم میکنند. این دستیار شنوایی فعال، گویندگان را در عرض چند ثانیه شناسایی کرده و هر صدای دیگری را سرکوب میکند و در آزمایشهای اولیه موفق نشان داده است.
افراد در اتاقهای شلوغ، هنگام پخش موسیقی، صدای تق و تق بشقابها و با وجود دهها مکالمه میان افراد مختلف صحبت میکنند و برای بسیاری، گوش دادن به یک صدا به گوش تیز کردن و تلاش ذهنی زیادی نیاز دارد. این در حالی است که این تلاش برای افرادی که مشکلات شنوایی دارند، میتواند طاقتفرسا باشد.
اکنون گروهی از محققان دانشگاه واشینگتن(Washington) میگویند که راهی برای عبور از این سر و صدا پیدا کردهاند.
هدفونهای هوشمند جدید مجهز به هوش مصنوعی میتوانند به طور خودکار صدای طرف مقابل مورد نظر کاربر برای مکالمه را از هرج و مرج اطراف جدا کنند.
فناوری شنوایی هوشمندتر
برخلاف دستگاههای ایزولهکننده گفتار موجود، نمونه اولیه این هدفون جدید منتظر ورودی دستی نمیماند. هدفونها تشخیص میدهند که چه کسی بخشی از مکالمه است و صداهایی را که با ریتم گفتار نوبتی مطابقت ندارند، خاموش میکنند.
یک مدل هوش مصنوعی الگوهای زمانبندی را تجزیه و تحلیل میکند و دیگری صداهای نامربوط را فیلتر میکند.
این سیستم، طرفهای مکالمه را در عرض دو تا چهار ثانیه شناسایی میکند.
این تیم، کار خود را به تازگی در چین و در کنفرانس روشهای تجربی در پردازش زبان طبیعی به اشتراک گذاشت. گفتنی است که کد اصلی آن متنباز است.
محققان معتقدند که این فناوری میتواند از سمعکها، هدفونها و عینکهای هوشمند آینده پشتیبانی کند.
شیام گولاکوتا(Shyam Gollakota)، نویسنده ارشد این مطالعه گفت که رویکردهای قبلی بسیار فراتر از انتظار کاربران هستند.
وی افزود: رویکردهای موجود برای شناسایی اینکه فرد به چه کسی گوش میدهد، عمدتاً شامل الکترودهای کاشته شده در مغز برای ردیابی توجه است.
وی خاطرنشان کرد که الگوهای طبیعی در گفتگو، مسیر بهتری را ارائه میدهند.
گولاکوتا ادامه داد: بینش ما این است که وقتی با گروه خاصی از افراد صحبت میکنیم، گفتار ما به طور طبیعی از یک ریتم نوبتی پیروی میکند و ما میتوانیم هوش مصنوعی را آموزش دهیم تا این ریتمها را فقط با استفاده از صدا، بدون نیاز به کاشت الکترود، پیشبینی و ردیابی کند.
نحوه رفتار این هدفون در استفاده واقعی
این سیستم زمانی فعال میشود که فرد شروع به صحبت میکند. مدل اول، بررسی اینکه «چه کسی چه زمانی صحبت کرده است» را اجرا میکند و به دنبال همپوشانیِ کم بین گویندگان میگردد.
مدل دوم سیگنال را پالایش میکند و صدای ایزوله شده را به صورت لحظهای به کاربر بازمیگرداند.
نمونه اولیه در حال حاضر از مکالماتی که شامل کاربر و حداکثر چهار گوینده دیگر میشود، بدون تأخیر قابل توجه پشتیبانی میکند. محققان این تجربه را با ۱۱ شرکتکننده آزمایش کردند.
آنها وضوح، حذف نویز و درک مطلب را با و بدون فیلترها ارزیابی کردند. نسخه فیلتر شده بیش از دو برابر امتیاز بیشتری کسب کرد.
این پروژه بر اساس آزمایشهای قبلی تیم «گولاکوتا» ساخته شده است. نمونههای اولیه قبلی نیاز به نگاه کردن به فرد برای جداسازی صدای او یا تنظیم حبابهای صوتی مبتنی بر فاصله داشتند.
گویلین هو(Guilin Hu)، محقق ارشد این مطالعه میگوید: طراحی جدید، این مراحل را حذف میکند. هر کاری که ما قبلاً انجام دادهایم، مستلزم آن است که کاربر به صورت دستی یک گوینده خاص یا فاصلهای را که باید گوش دهد، انتخاب کند که برای تجربه کاربر خوب نیست.
وی افزود: این سیستم جدید به طور خودکار واکنش نشان میدهد. آنچه ما نشان دادهایم، یک فناوری است که پیشگیرانه عمل میکند و چیزی است که قصد انسان را به صورت غیرتهاجمی و خودکار استنباط میکند.
البته فضا و گفتارهای آشفته هنوز مشکلاتی را ایجاد میکند. قطع کردن صحبت افراد، صحبت کردن بین حرفهای یکدیگر یا پیوستن به مکالمه در حین مکالمه میتواند ردیابی را گیج کند.
با این حال، نتایج اولیه تیم را تحت تأثیر قرار داد. مدلها برای زبانهای انگلیسی، ماندارین و ژاپنی آموزش دیده بودند و زبانهای دیگر ممکن است نیاز به تنظیمات داشته باشند.
نسخه فعلی از هدفونهای روگوشی تجاری و مدارهای پایه استفاده میکند. «گولاکوتا» انتظار دارد که این فناوری به هدفونهای داخل گوشی یا سمعکها نیز توسعه یابد. همین تیم نشان داد که مدلهای هوش مصنوعی مشابه میتوانند روی تراشههای به اندازه سمعک اجرا شوند.
