هوش مصنوعی جدید متا Voicebox برای تبدیل متن به گفتار
امروز، ما یک قدم به آینده نزدیکتر شدهایم. شرکت متا از هوش مصنوعی جدید خود با نام Voicebox رونمایی کرده است، مدل تولیدی متن به گفتار این شرکت که قول داده است همان کاری را که ChatGPT و Dall-E برای تولید متن و تصویر انجام میدهند، این هوش مصنوعی برای کلام گفتاری و صوت انجام دهد.
این هوش مصنوعی اساساً، یک تولید کننده متن به خروجی صوتی است، درست مانند GPT یا Dall-E فقط به جای ایجاد متن یا تصاویر زیبا، کلیپهای صوتی را پخش میکند. متا این سیستم را بهعنوان «یک مدل تطبیق جریان غیر خودرگرسیون که برای تکمیل گفتار، با توجه به بافت صوتی و متن آموزش داده شده است» تعریف میکند.
هوش مصنوعی Voicebox روی بیش از ۵۰۰۰۰ ساعت صدای فیلتر نشده، آموزش دیده است. برای این آموزش، متا به طور خاص از گفتار و رونوشتهای ضبط شده از مجموعهای از کتابهای صوتی با مالکیت عمومی که به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شده بود استفاده کرده است.
به گفته محققان، این مجموعه دادههای متنوع به سیستم اجازه میدهد بدون توجه به زبانهایی که طرفین صحبت میکنند، گفتار محاورهای بیشتری تولید کند. نتایج نشان میدهند که مدلهای تشخیص گفتار آموزش دیده شده بر روی گفتار مصنوعی تولید شده توسط Voicebox تقریباً به همان خوبی مدلهای آموزش داده شده در گفتار واقعی عمل میکنند.
علاوه بر این، گفتار تولید شده توسط این هوش مصنوعی تنها با ۱ درصد نرخ خطا تولید میشود که در مقایسه با خطای ۴۵ تا ۷۰ درصدی مشاهده شده در مدلهای TTS موجود، بسیار ناچیز و ایدهآل است.
این سیستم ابتدا برای پیشبینی بخشهای گفتار و همچنین رونوشت متن آموزش داده شده است. محققان Meta توضیح میدهند که پس از یادگیری صحبت کردن از روی متن، این مدل میتواند آن را در تمام امکانات تولید گفتار خود، از جمله تولید بخشهایی در وسط ضبط صدا، بدون نیاز به درست کردن مجدد کل ورودی، اعمال کند.
همچنین اعلام شده است که Voicebox قادر به ویرایش کلیپهای صوتی، حذف نویز از گفتار و حتی جایگزین کردن کلمات اشتباه است. محققان میگویند: اگر کاربر بتواند تشخیص دهد که کدام بخش از گفتار در اثر نویز خراب شده است (مثل صدای پارس سگ در پسزمینه)، میتواند آنرا برش داده و به این مدل هوش مصنوعی دستور دهد تا آن بخش را بازسازی کند.
درکل قابلیتهای Voicebox توسط شرکت متا به شرح زیر توصیف شده است:
تبدیل موضوعی متن به صوت (in-context): این هوش مصنوعی با دریافت نمونه صوتی ۲ ثانیهای، لحن و سبک صدا را میآموزد و با همین سبک، متن را به گفتار تبدیل میکند.
ویرایش مکالمه و کاهش نویز: Voicebox قادر است بخشی از یک مکالمه صوتی را که با نویز مختل شده است، بازسازی کند یا بدون نیاز به ضبط مجدد، کلماتی را که بهدرستی ادا نشدهاند، اصلاح کند.
انتقال سبک و روش مکالمه از یک زبان به زبان دیگر: Voicebox این امکان را دارد که نمونهای از یک مکالمه یا بخشی از یک متن را دریافت کرده و آن را به فایل صوتی به زبانهای انگلیسی، فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتغالی تبدیل کند.
نمونهبرداری متنوع گفتار: این هوش مصنوعی از دادههای متنوعی برای تولید صوت استفاده میکند تا با دقت بالاتری، نوع گفتوگوی افراد در ۶ زبان اشاره شده در بالا را تولید کند.
البته شرکت متا هنوز برنامه یا کد منبع هوش مصنوعی Voicebox را به اشتراک نگذاشته است.
منبع:
https://www.engadget.com/metas-voicebox-ai-is-a-dall-e-for-text-to-speech-150021287.html
همچنین خواندن مطالب زیر توصیه می شود: