ソニーの DubWise はビデオからの視覚的なヒントを利用して AI 吹き替えを改善

ソニーの DubWise はビデオからの視覚的なヒントを利用して AI 吹き替えを改善 – Slator

ByManagetech

6月 26, 2024

2024年9月5日に開催されるSlatorCon Silicon Valleyに今すぐ登録
2024年6月13日の論文で、Sony Research IndiaとIndraprastha Institute of Information Technology (IIIT)の研究者がDubWiseを紹介
DubWiseは、映像と吹き替え音声を同期させるための手法
大規模言語モデル（LLM）と映像からの視覚的手がかりを組み合わせた多モーダルアプローチを採用
DubWiseは、対話を翻訳するだけでなく、翻訳された音声の長さを制御して元の映像の口の動きやタイミングに合わせる
GPT-2を採用した多言語TTSには、小さなモデルサイズと最新のTTSシステムでの広い適応性が理由
研究者によると、DubWiseは他の最先端の手法よりも優れた結果を示し、リップ同期と自然さを向上させる
単一話者と複数話者のシナリオで実験を行い、期間制御、理解可能性、リップ同期の精度を評価

この論文では、映像と音声の同期の問題に取り組み、映像からの視覚的手がかりを活用して音声の長さを制御可能にするDubWiseという手法が紹介されています。研究者たちはGPT-2を採用した多言語TTSを使用し、他の手法よりも優れた結果を達成したと述べています。この研究は、映像ベースのモダリティを活用してTTSの制御可能性を向上させる初めての試みであり、音声の理解可能性と品質を維持しながら、リップ同期と自然さを向上させることに成功しています。

元記事: https://slator.com/sonys-dubwise-uses-visual-cues-from-video-to-improve-ai-dubbing/

ソニーの DubWise はビデオからの視覚的なヒントを利用して AI 吹き替えを改善 – Slator

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY