要約:

  • Google Researchチームがゼロショット音声転送(VT)モデルを開発
  • VTモデルは特定の人物の声をカスタマイズしたテキスト読み上げ(TTS)に使用可能
  • VTモデルは少数の音声サンプルで動作可能
  • VTモデルは100以上の言語でTTSを実行可能
  • 人間の審査員が判定した結果、VTモデルによる生成音声と実際の話者の音声を同じ話者と誤認識する割合が高かった

感想:

GoogleのVTモデルは、声を失った人々が元の声を再現するために革新的な解決策を提供しています。音声サンプルが少なくても動作可能であり、100以上の言語でTTSを実行できる点は非常に興味深いです。VT技術の発展は、AIが音声クローニングにどのように使用されるかという懸念を引き起こしていますが、Googleの研究チームは出力に音声透かしを追加するなど、その問題に対処しているようです。


元記事: https://www.infoq.com/news/2024/10/google-voice-transfer-ai/