متا از هوش مصنوعی جدیدی به نام Spirit LM رونمایی کرد که اولین مدل زبانی چندوجهی این شرکت است و میتواند ورودیها و خروجیهای متن و گفتار را یکپارچه ادغام کند. فناوری جدید متا باعث میشود گفتار و مکالمات صوتی با این مدل بسیار طبیعی باشد؛ از این نظر میتوان آن را رقیب GPT-4o دانست.
براساس اعلام متا، مدلهای زبانی بزرگ اغلب در مکالمات صوتی از فرایند تبدیل متن به گفتار (text-to-speech) استفاده میکنند که در آن صدای کاربر با «تشخیص خودکار گفتار» (ASR) رونویسی میشود، سپس LLM متنی تولید میکند و درنهایت با استفاده از فناوری تبدیل «متن به گفتار» (TTS) پاسخ هوش مصنوعی به گفتار تبدیل میشود.
این فرایند جنبههای بیانی و صوتی گفتار را از بین میبرد و دیگر مکالمات طبیعی نخواهد بود. در تلاش برای رفع این مسئله، متا Spirit LM را معرفی کرده که اولین مدل زبانی چندوجهی متنباز این شرکت است که متن و گفتار را با هم ترکیب میکند.
مدل متنباز Spirit LM متا برای مکالمات صوتی طبیعی
براساس مقاله علمی معرفی Spirit LM، این مدل دو نسخه دارد:
- Spirit LM Base: این نسخه از توکنهای آوایی (Phonetic) برای پردازش و تولید گفتار استفاده میکند.
- Spirit LM Expressive: که شامل توکنهای اضافی برای ایجاد زیروبم و لحن است که به مدل اجازه میدهد حالتهای احساسی ظریفتری مانند هیجان یا غم را ثبت و آنها را در گفتار تولیدشده منعکس کند.
هر دو مدل روی ترکیبی از مجموعه دادههای متنی و گفتاری آموزش دیدهاند که به Spirit LM اجازه میدهد کارهای مختلف چندوجهی مانند تبدیل گفتار به نوشتار و نوشتار به گفتار را انجام دهد و درعینحال بیان طبیعی صوتی خود را در خروجیها حفظ کند.
در راستای تعهد متا به انتشار مدلهای متنباز، این شرکت کدهای Spirit LM را نیز کاملاً در Github دسترس قرار داده است.
«مارک زاکربرگ»، مدیرعامل متا، همیشه مدافع سرسخت هوش مصنوعی متنباز بوده و اخیراً نیز گفته است هوش مصنوعی پتانسیل افزایش بهرهوری، خلاقیت و کیفیت زندگی انسان را دارد و پیشرفت در زمینههایی مانند تحقیقات پزشکی و اکتشافات علمی را سرعت میبخشد.