هوش مصنوعی

March 21, 2025
15:30 جمعه، 1ام فروردینماه 1404
کد خبر: 188775

OpenAI مدل‌های گفتاری و نوشتاری جدیدی برای ایجنت‌های هوش مصنوعی معرفی کرد

منبع: دیجیاتو

البته OpenAI در حال حاضر قصد ندارد این مدل‌های جدید را به صورت عمومی منتشر کند.

OpenAI از ارتقاء مدل‌های هوش مصنوعی خود در زمینه تبدیل گفتار به متن و متن به گفتار خبر داد. این مدل‌های جدید که به API این شرکت اضافه شده‌اند، نسبت به نسخه‌های قبلی پیشرفت‌های قابل‌توجهی داشته‌اند و قابلیت‌های بیشتری را در اختیار توسعه‌دهندگان قرار می‌دهند.

به گفته OpenAI، این مدل‌های جدید بخشی از چشم‌انداز بزرگ‌تر این شرکت برای ساخت سیستم‌های خودکار یا «عامل‌های هوشمند» هستند که می‌توانند به‌طور مستقل وظایف مختلفی را برای کاربران انجام دهند. «اولیویه گودمن»، مدیر محصول اوپن‌ای‌آی، در این باره به TechCrunch توضیح داده که این ایجنت‌ها می‌توانند به‌عنوان چت‌بات‌هایی عمل کنند که با مشتریان یک کسب‌وکار تعامل می‌کنند. او پیش‌بینی کرد که در ماه‌های آینده شاهد ظهور تعداد بیشتری از این عامل‌ها خواهیم بود.

مدل تبدیل متن به گفتار OpenAI
مدل جدید تبدیل متن به گفتار OpenAI با نام gpt-4o-mini-tts، نه تنها گفتاری طبیعی‌تر و با جزئیات بیشتر تولید می‌کند، بلکه قابلیت تنظیم دقیق‌تری نیز دارد. توسعه‌دهندگان می‌توانند با استفاده از دستورات زبان طبیعی، نحوه بیان متن را کنترل کنند.

به‌عنوان مثال، می‌توان از این مدل خواست که مانند یک «دانشمند دیوانه» یا با صدایی آرام و شبیه به یک معلم صحبت کند. یک نمونه از صداهای تولید شده توسط این مدل را در ادامه می‌توانید بشنوید:

«جف هریس»، یکی از اعضای تیم محصول OpenAI، تأکید کرده که هدف این است که توسعه‌دهندگان بتوانند هم «تجربه صوتی» و هم «زمینه» را به دلخواه خود تنظیم کنند. او می‌گوید:

«در موقعیت‌های مختلف، شما نمی‌خواهید که صدایی یکنواخت و بدون احساس شنیده شود. مثلاً اگر در یک تجربه پشتیبانی مشتری هستید و می‌خواهید صدای ربات عذرخواهی کند، می‌توانید به مدل دستور دهید که این احساس را در صدا لحاظ کند.»

مدل‌های تبدیل گفتار به متن
OpenAI همچنین دو مدل جدید تبدیل گفتار به متن با نام‌های gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرده است که جایگزین مدل قدیمی Whisper می‌شوند. این مدل‌های جدید که روی مجموعه‌ داده‌های صوتی متنوع و باکیفیت آموزش دیده‌اند، می‌توانند صداهای با لهجه‌های مختلف و حتی در محیط‌های شلوغ را با دقت بیشتری تشخیص دهند.

هریس همچنین اشاره کرده که این مدل‌ها کمتر از Whisper دچار خطاهای «توهم» می‌شوند. مدل Whisper گاهی اوقات کلمات یا حتی جملات کاملی را که وجود نداشتند، به متن اضافه می‌کرد که این موضوع می‌توانست مشکلاتی را ایجاد کند. او می‌گوید:

«این مدل‌ها در مقایسه با Whisper بهبود چشمگیری داشته‌اند. دقت مدل‌ها برای ایجاد یک تجربه صوتی قابل اعتماد کاملاً ضروری است و دقت در اینجا به این معناست که مدل‌ها کلمات را به درستی تشخیص می‌دهند و جزئیاتی که نشنیده‌اند را به متن اضافه نمی‌کنند.»

بااین‌حال، دقت این مدل‌ها ممکن است بسته به زبانی که تبدیل می‌شود، متفاوت باشد.

برخلاف رویه گذشته، OpenAI قصد ندارد این مدل‌های جدید تبدیل گفتار به متن خود را به‌صورت عمومی منتشر کند. این شرکت پیش‌تر نسخه‌های جدید Whisper را تحت مجوز MIT برای استفاده تجاری منتشر می‌کرد. هریس توضیح داده که مدل‌های جدید بسیار بزرگ‌تر از Whisper هستند و بنابراین برای انتشار عمومی مناسب نیستند. او می‌گوید:

«این مدل‌ها از نوعی نیستند که بتوانید به راحتی روی لپ‌تاپ خود اجرا کنید. ما می‌خواهیم اگر چیزی را به‌صورت متن‌باز منتشر می‌کنیم، با دقت این کار را انجام دهیم و مدلی را ارائه کنیم که واقعاً برای آن نیاز خاص مناسب باشد.»

  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.