- Alibabaの研究者は、FunAudioLLMという画期的なフレームワークを発表
- システムは、SenseVoice(音声理解)とCosyVoice(音声生成)の2つの主要コンポーネントで構成
- SenseVoiceは、多言語音声認識、感情認識、および音声イベント検出に優れている
- CosyVoiceは、多言語音声生成、ゼロショットインコンテキストラーニング、クロスリンガル音声クローニング、および指示に従う能力に特化
- これらのモデルをLLMsと統合することで、音声対音声翻訳、感情的な音声チャット、インタラクティブなポッドキャスト、表現豊かなオーディオブックナレーションなどのアプリケーションが可能に
- 実験結果では、SenseVoiceがWhisperなどの既存モデルを多くのベンチマークで上回ることが示されている
- CosyVoiceは、高品質の音声合成を実現し、内容の一貫性や話者の類似性の面で元の発話と比較して同等または優れた性能を達成
- 研究者は、SenseVoiceとCosyVoiceに関連するモデルをModelscopeとHuggingfaceでオープンソース化し、GitHubでトレーニング、推論、ファインチューニングコードを提供
- システムは有望な結果を示す一方、低リソース言語の性能が低いこと、ストリーミング転写機能の欠如、元の声質を維持しながら表現豊かな感情変化を改善する必要があるという制約も認められている
- Alibabaは以前、MidjourneyやDall-Eに挑戦する画像生成器Tongyiを作成
- FunAudioLLMは、Alibabaの創造的モデルを拡大する上で大きな進歩を表す
研究チームは、SenseVoiceとCosyVoiceに関連するモデルをオープンソース化し、高品質な音声合成や音声理解の能力を示している。ただし、今後の課題としては、低リソース言語への対応や表現豊かな感情の変化の向上が求められている。