هوش مصنوعی جدید متا Voicebox برای تبدیل متن به گفتار

خرداد 29, 1402
منتشر شده در Admin

29 خرداد

هوش مصنوعی جدید متا Voicebox برای تبدیل متن به گفتار

امروز، ما یک قدم به آینده نزدیک‌تر شده‌ایم. شرکت متا از هوش مصنوعی جدید خود با نام Voicebox رونمایی کرده است، مدل تولیدی متن به گفتار این شرکت که قول داده است همان کاری را که ChatGPT و Dall-E برای تولید متن و تصویر انجام می‌دهند، این هوش مصنوعی برای کلام گفتاری و صوت انجام دهد.

هوش مصنوعی جدید متا Voicebox برای تبدیل متن به گفتار IDH

این هوش مصنوعی اساساً، یک تولید کننده متن به خروجی صوتی است، درست مانند GPT یا Dall-E فقط به جای ایجاد متن یا تصاویر زیبا، کلیپ‌های صوتی را پخش می‌کند. متا این سیستم را به‌عنوان «یک مدل تطبیق جریان غیر خودرگرسیون که برای تکمیل گفتار، با توجه به بافت صوتی و متن آموزش داده شده است» تعریف می‌کند.

هوش مصنوعی Voicebox روی بیش از ۵۰۰۰۰ ساعت صدای فیلتر نشده، آموزش دیده است. برای این آموزش، متا به طور خاص از گفتار و رونوشت‌های ضبط شده از مجموعه‌ای از کتاب‌های صوتی با مالکیت عمومی که به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شده بود استفاده کرده است.

به گفته محققان، این مجموعه داده‌های متنوع به سیستم اجازه می‌دهد بدون توجه به زبان‌هایی که طرفین صحبت می‌کنند، گفتار محاوره‌ای بیشتری تولید کند. نتایج نشان می‌دهند که مدل‌های تشخیص گفتار آموزش دیده شده بر روی گفتار مصنوعی تولید شده توسط Voicebox تقریباً به همان خوبی مدل‌های آموزش داده شده در گفتار واقعی عمل می‌کنند.

علاوه بر این، گفتار تولید شده توسط این هوش مصنوعی تنها با ۱ درصد نرخ خطا تولید می‌شود که در مقایسه با خطای ۴۵ تا ۷۰ درصدی مشاهده شده در مدل‌های TTS موجود، بسیار ناچیز و ایده‌آل است.

این سیستم ابتدا برای پیش‌بینی بخش‌های گفتار و همچنین رونوشت متن آموزش داده شده است. محققان Meta توضیح می‌دهند که پس از یادگیری صحبت کردن از روی متن، این مدل می‌تواند آن را در تمام امکانات تولید گفتار خود، از جمله تولید بخش‌هایی در وسط ضبط صدا، بدون نیاز به درست کردن مجدد کل ورودی، اعمال کند.

همچنین اعلام شده است که Voicebox قادر به ویرایش کلیپ‌های صوتی، حذف نویز از گفتار و حتی جایگزین کردن کلمات اشتباه است. محققان می‌گویند: اگر کاربر بتواند تشخیص دهد که کدام بخش از گفتار در اثر نویز خراب شده است (مثل صدای پارس سگ در پس‌زمینه)، می‌تواند آن‌را برش داده و به این مدل هوش مصنوعی دستور دهد تا آن بخش را بازسازی کند.

درکل قابلیت‌های Voicebox توسط شرکت متا به شرح زیر توصیف شده است:

تبدیل موضوعی متن به صوت (in-context): این هوش مصنوعی با دریافت نمونه صوتی ۲ ثانیه‌ای، لحن و سبک صدا را می‌آموزد و با همین سبک، متن را به گفتار تبدیل می‌کند.

ویرایش مکالمه و کاهش نویز: Voicebox قادر است بخشی از یک مکالمه صوتی را که با نویز مختل شده است، بازسازی کند یا بدون نیاز به ضبط مجدد، کلماتی را که به‌درستی ادا نشده‌اند، اصلاح کند.

انتقال سبک و روش مکالمه از یک زبان به زبان دیگر: Voicebox این امکان را دارد که نمونه‌ای از یک مکالمه یا بخشی از یک متن را دریافت کرده و آن را به فایل صوتی به زبان‌های انگلیسی، فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتغالی تبدیل کند.

نمونه‌برداری متنوع گفتار: این هوش مصنوعی از داده‌های متنوعی برای تولید صوت استفاده می‌کند تا با دقت بالاتری، نوع گفت‌وگوی افراد در ۶ زبان اشاره شده در بالا را تولید کند.

البته شرکت متا هنوز برنامه یا کد منبع هوش مصنوعی Voicebox را به اشتراک نگذاشته است.

منبع:

https://www.engadget.com/metas-voicebox-ai-is-a-dall-e-for-text-to-speech-150021287.html

همچنین خواندن مطالب زیر توصیه می شود:

راهنمای خرید مودم

راهنمای انتخاب مودم

پینگ چیست؟

معرفی مودم های مناسب گیم هواوی

تعداد مشاهده این مطلب: 151