متا هوش مصنوعی Spirit LM را معرفی کرد؛ مدلی برای تولید مکالمات صوتی طبیعی

متا از هوش مصنوعی جدیدی به نام Spirit LM رونمایی کرد که اولین مدل زبانی چندوجهی این شرکت است و می‌تواند ورودی‌ها و خروجی‌های متن و گفتار را یکپارچه ادغام کند. فناوری جدید متا باعث می‌شود گفتار و مکالمات صوتی با این مدل بسیار طبیعی باشد؛ از این نظر می‌توان آن را رقیب GPT-4o دانست.

براساس اعلام متا، مدل‌های زبانی بزرگ اغلب در مکالمات صوتی از فرایند تبدیل متن به گفتار (text-to-speech) استفاده می‌کنند که در آن صدای کاربر با «تشخیص خودکار گفتار» (ASR) رونویسی می‌شود، سپس LLM متنی تولید می‌کند و درنهایت با استفاده از فناوری تبدیل «متن به گفتار» (TTS) پاسخ هوش مصنوعی به گفتار تبدیل می‌شود.

این فرایند جنبه‌های بیانی و صوتی گفتار را از بین می‌برد و دیگر مکالمات طبیعی نخواهد بود. در تلاش برای رفع این مسئله، متا Spirit LM را معرفی کرده که اولین مدل زبانی چندوجهی متن‌باز این شرکت است که متن و گفتار را با هم ترکیب می‌کند.

مدل متن‌باز Spirit LM متا برای مکالمات صوتی طبیعی

براساس مقاله علمی معرفی Spirit LM، این مدل دو نسخه دارد:

Spirit LM Base: این نسخه از توکن‌های آوایی (Phonetic) برای پردازش و تولید گفتار استفاده می‌کند.
Spirit LM Expressive: که شامل توکن‌های اضافی برای ایجاد زیروبم و لحن است که به مدل اجازه می‌دهد حالت‌های احساسی ظریف‌تری مانند هیجان یا غم را ثبت و آن‌ها را در گفتار تولیدشده منعکس کند.

هر دو مدل روی ترکیبی از مجموعه داده‌های متنی و گفتاری آموزش دیده‌اند که به Spirit LM اجازه می‌دهد کارهای مختلف چندوجهی مانند تبدیل گفتار به نوشتار و نوشتار به گفتار را انجام دهد و درعین‌حال بیان طبیعی صوتی خود را در خروجی‌ها حفظ کند.

بخوانید! مدل هوش مصنوعی Magic با حافظه خارق‌العاده معرفی شد؛ 100 میلیون توکن پنجره زمینه

در راستای تعهد متا به انتشار مدل‌های متن‌باز، این شرکت کدهای Spirit LM را نیز کاملاً در Github دسترس قرار داده است.

«مارک زاکربرگ»، مدیرعامل متا، همیشه مدافع سرسخت هوش مصنوعی متن‌باز بوده و اخیراً نیز گفته است هوش مصنوعی پتانسیل افزایش بهره‌وری، خلاقیت و کیفیت زندگی انسان را دارد و پیشرفت‌ در زمینه‌هایی مانند تحقیقات پزشکی و اکتشافات علمی را سرعت می‌بخشد.