- 2024年9月5日に開催されるSlatorCon Silicon Valleyに今すぐ登録
- 2024年6月13日の論文で、Sony Research IndiaとIndraprastha Institute of Information Technology (IIIT)の研究者がDubWiseを紹介
- DubWiseは、映像と吹き替え音声を同期させるための手法
- 大規模言語モデル(LLM)と映像からの視覚的手がかりを組み合わせた多モーダルアプローチを採用
- DubWiseは、対話を翻訳するだけでなく、翻訳された音声の長さを制御して元の映像の口の動きやタイミングに合わせる
- GPT-2を採用した多言語TTSには、小さなモデルサイズと最新のTTSシステムでの広い適応性が理由
- 研究者によると、DubWiseは他の最先端の手法よりも優れた結果を示し、リップ同期と自然さを向上させる
- 単一話者と複数話者のシナリオで実験を行い、期間制御、理解可能性、リップ同期の精度を評価
この論文では、映像と音声の同期の問題に取り組み、映像からの視覚的手がかりを活用して音声の長さを制御可能にするDubWiseという手法が紹介されています。研究者たちはGPT-2を採用した多言語TTSを使用し、他の手法よりも優れた結果を達成したと述べています。この研究は、映像ベースのモダリティを活用してTTSの制御可能性を向上させる初めての試みであり、音声の理解可能性と品質を維持しながら、リップ同期と自然さを向上させることに成功しています。
元記事: https://slator.com/sonys-dubwise-uses-visual-cues-from-video-to-improve-ai-dubbing/