日. 7月 5th, 2026

SALSA: INTERSPEECH 2024 向けの高速 ASR-LLM 同期集約 – IBM Research

ByManagetech

8月 30, 2024

要約:

自動音声認識（ASR）システムは、低リソース言語でのパフォーマンスがまだ不足している。
多言語大規模言語モデル（LLM）の台頭が、低リソース言語におけるパフォーマンスを向上させるためにASRシステムと効果的に統合する可能性を提供している。
LLMとASRシステムのトークン化が異なるため、この目標を達成するための主な課題の1つである。
本研究では、SALSAという同期的で軽量なソリューションを提案し、事前学習済みのASRとLLMシステムを異なるトークン語彙でマージする。
SALSAは、ASRとLLMデコーダの一部のレイヤーにのみ学習プロジェクションレイヤーを使用することでパラメータ効率的である。
FLEURSベンチマークの10以上の低リソース言語でSALSAを評価し、WERの削減率が最大36%に達する。

感想:

提案されたSALSAは、低リソース言語における自動音声認識の性能向上に向けた重要な一歩であり、ASRとLLMシステムを効果的に統合する新しい方法を示しています。特に、トークン語彙の違いという課題に焦点を当て、学習可能なプロジェクションを活用することでパラメータ効率性を実現しています。FLEURSベンチマークにおける高いWER削減率は、SALSAの有効性を示しています。

元記事: https://research.ibm.com/publications/salsa-speedy-asr-llm-synchronous-aggregation

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

2月 6, 2025 Managetech

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

2月 6, 2025 Managetech

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

2月 6, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech