翻訳のために聴く：LLMへの音声モダリティ統合の有効性

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMにネイティブなモダリティとして音声を追加する（SpeechLLMs）ことで、従来のカスケード型パイプライン（音声基盤モデル＋下流のテキストモデル）と比べて音声からテキストへの翻訳品質が向上するかどうかを検討する。
「Hearing to Translate」を提案する。これは、6つの最先端SpeechLLMsを、16の強力なダイレクトおよびカスケードのベースラインに対して、16のベンチマーク、13の言語ペア、9つの困難条件（例：言い淀み、雑音、長尺の音声）にわたって評価する、最初の包括的なベンチマーク群である。
全体の結果では、カスケード方式は依然として最も信頼できるアプローチである一方で、最新のSpeechLLMsは複数の状況でカスケードに匹敵、あるいは上回ることが示される。
分析では、音声基盤モデル（SFMs）単体はカスケードおよびエンドツーエンドのLLM統合の両方に後れを取っており、高品質な翻訳には強力なLLM統合が重要であることが示唆される。

要旨: 大規模言語モデル（LLM）がテキストの枠を超えて拡張するにつれ、発話をネイティブなモダリティとして統合することでSpeechLLMが生まれました。SpeechLLMは話し言葉を直接処理し、音声対テキスト変換（ST）やその他の下流タスクを可能にし、従来の文字起こし（転写）ベースのパイプラインを迂回します。しかし、この統合が、確立されたカスケード型アーキテクチャよりもSTの品質を改善するかどうかは、未解決の問いのままです。私たちは、Hearing to Translateを提案します。これは、6つの最先端のSpeechLLMを、主要な音声基盤モデル（SFM）と多言語LLMを組み合わせる16の強力な直接方式およびカスケード方式のシステムに対して、厳密にベンチマークする最初の包括的なテストスイートです。私たちの分析は、16のベンチマーク、13の言語ペア、そして、不明瞭である、雑音がある、長形式の音声であるといった9つの難しい条件にまたがります。この広範な評価の結果から、カスケード型システムは総じて最も信頼できる解決策である一方で、最新のほとんどのSpeechLLMは、さまざまな状況でカスケードに匹敵し、場合によってはそれを上回ることが分かりました。対照的に、SFMは両者に遅れをとっており、モデル内であれパイプライン内であれ、LLMを統合することが、高品質な音声翻訳に不可欠であることが示唆されます。

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

AIエージェントにかかる10億ドル規模の税金

Dev.to

翻訳のために聴く：LLMへの音声モダリティ統合の有効性

要点

関連記事

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

AIエージェントにかかる10億ドル規模の税金

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer