فناوری اطلاعات

افزودن احساسات به صدای هوش مصنوعی

منبع: سیناپرس
 
در پژوهشی جدید، تیم تحقیقاتی مهندسان برق و کامپیوتر دانشگاه کالیفرنیا توانستند با استفاده از تلفیق هوش مصنوعی و دستگاه تولید کننده گفتار، موفق به بیان جملات با ریتم شده و بازسازی کل گفتار از یک الگوی کوچک را آغاز کنند.
 
 صدای تولید شده توسط هوش مصنوعی ابزاری ساخته شده از دستورات صوتی است که هوش مصنوعی از آن برای دریافت دستورالعمل ها و برقراری ارتباط با کاربر نهایی استفاده می کند. تا به حال، صداهای تولید شده توسط هوش مصنوعی عاری از هر گونه حالت یا احساسی بودند. همان صدای کسل کننده و تکراری که هرگز احساساتی را منتقل نمی کرد.
در این راستا، دانشمندان علوم کامپیوتر در دانشگاه سن دیگو راهی برای آموزش صدای هوش مصنوعی برای داشتن معنای رساتر و احساسی تر کشف کردند.
 
این اقدام پیشگامانه و نتایج آن در کنفرانس سالانه ACML در سال ۲۰۲۱ توسط تیم تحقیقاتی مهندسان برق و کامپیوتر از دانشگاه کالیفرنیا ارائه شد. نتایج این اقدامات نشان داد که فناوری فوق، می ‌تواند کیفیت خدمات دستیاران گوینده دستگاه‌های هوشمند و سایر حوزه‌هایی که از دستورات صوتی هوش مصنوعی استفاده می کند را  به‌ طور گسترده بهبود بخشد. اما این فناوری به همین جا ختم نمی ‌شود و می ‌توان آن را برای ترجمه به زبان‌ های مختلف یا استفاده در فیلم‌ها برای ساخت صدای با کیفیت به کار برد.
 
علاوه بر این، فناوری تلفیق احساس با صدای هوش مصنوعی یک تقویت کننده بزرگ برای دستگاه های تولید کننده گفتار خواهد بود. دستگاه تولید کننده گفتار [SGD] یک سیستم خروجی صدای شخصی سازی شده است که به افرادی که مشکل گفتار دارند کمک می کند تا آن را به عنوان یک مکمل گفتار در نظر بگیرند. نمونه این فناوری توسط فیزیکدان معروف استیون هاوکینگ استفاده می شد. 
 
 اساساً این فناوری، گفتار با حالت و احساسات را با آموزش کمی برای افراد ایجاد می کند. صداهای هوش مصنوعی از قبل دارای محدودیت های متعددی بودند که آنها را نسبتاً در حد پایین نگه می داشت. برخی از سیستم ها تنها پس از ساعت های طولانی استفاده از داده های آموزشی، گفتار بیانی را برای یک موضوع خاص ترکیب می کنند. برخی دیگر تنها پس از چند دقیقه از یک موضوع جدید می توانند ترجمه و گفتار ایجاد کرده اما نمی توانند گفتار گویا را برای آن شخص ترکیب کنند.
 
برای توسعه این فناوری جدید، دانشمندان از ریتم و زیر و بم گفتار عادی برای نمایش احساسات استفاده کردند. این تکنیک به آنها کمک کرد تا سخنرانی های رسا با طیف وسیعی از صداها را شبیه سازی کنند.
به گفته محققان، این مدل پیشنهادی ما می ‌تواند صدای جدیدی را بیان کند، احساس کند، آواز بخواند یا سبک یک سخنرانی مرجع معین را کپی کند. 
 
 یکی از جنبه های منفی این تکنیک پیشرفته اینست که می توان از آن برای ساختن ویدیوها و صداهای دیپ فیک یا جعل عمیق بسیار دقیق استفاده کرد.  نیخارا پاارت (Neekhara Paarth) یکی دیگر از محققان این پژوهش ها، این امر را به عنوان یک تهدید و نگرانی تصدیق می کند. به این ترتیب، تیم تحقیقاتی بر روی اصلاح آن تمرکز خواهد کرد. آنها قصد دارند روی یک کد پنهان کار کنند که به شما کمک می کند تا صداهای شبیه سازی شده را حذف کنید.

​​