7月11日の論文で、アリババグループのTongyi SpeechTeamがFunAudioLLMを発表。これは、音声理解と生成技術を統合した大規模言語モデル(LLM)ファミリーで、自然な音声主導のインタラクションを可能にする。
研究者らは、最近の人工知能(AI)の進歩が人間と機械の相互作用を変えたと説明。彼らの主な焦点は、「人間とLLMの間の自然な音声インタラクションを向上させること」で、効果的に音声を処理・生成できるモデルを開発する。
FunAudioLLMフレームワークは、SenseVoice(多言語音声認識および感情検知用音声モデル)とCosyVoice(音声生成用テキスト読み上げ合成器)の2つの中核モデルに基づいて構築されており、「FunAudioLLMはSenseVoiceとCosyVoiceの長所を活用して、人間と大規模言語モデルの間でより自然でシームレスなコミュニケーションを可能にする」と研究者らは述べた。
FunAudioLLMの機能:
- SenseVoice、LLMs、およびCosyVoiceを組み合わせることで、スピーチ間の翻訳を効果的に実行できる。
- Simultaneous Interpreting: オリジナルのトーンと感情を再現した多言語翻訳を実行可能。
FunAudioLLMは、グローバルアプリケーションでの有用性を高めるために多言語をサポートしており、デモとコードはGitHubで入手可能。
感想: FunAudioLLMは、音声理解と生成技術の統合により、自然な音声主導の相互作用を可能にする画期的なアプローチである。特に、多言語翻訳や同時通訳などのコミュニケーションにおける言語障壁を減少させ、感情やトーンを保持しながらオリジナルのスピーチを再現する点が注目に値する。