X-OPD：音声LLMにおける能力整合のためのクロスモーダル・オンポリシー蒸留

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エンドツーエンドのSpeech LLMがレイテンシやパラ言語的モデリングを改善する一方で、テキストベースのLLMに対して大きな性能ギャップが依然として存在すると論じている。
提案手法X-OPD（Cross-Modal On-Policy Distillation）は、オンポリシーのロールアウトを用いることで、音声の学生モデルが自身の出力分布を探索できるようにする。
テキストベースの教師モデルが学生の軌跡を評価し、トークン単位のフィードバックを与えることで、教師の能力を学生のマルチモーダル表現へ蒸留する。
複数のベンチマークでの実験により、X-OPDは複雑な課題において能力ギャップを大幅に縮小しつつ、学生が持つ既存の能力を概ね維持することが示される。
本研究は、X-OPDを標準的なSFTやRL手法よりも、音声LLMの能力をテキストLLM対応へ整合させるために改善する学習アプローチとして位置付ける。

要旨: カスケード型の対話システムからエンドツーエンド（E2E）音声Large Language Models（LLM）への移行は、遅延と準言語的（パラ言語的）モデリングを改善しますが、E2Eモデルはテキストベースの対応物に比べて大きな性能劣化を示すことが多いです。標準的な教師あり微調整（SFT）および強化学習（RL）の訓練手法では、このギャップを埋めることができません。そこで本研究では、Speech LLMの能力をテキストベースの対応物に体系的に整合させるための、新しいCross-Modal On-Policy DistillationフレームワークであるX-OPDを提案します。X-OPDにより、Speech LLMはオンポリシーのロールアウトを通じて自身の分布を探索でき、このときテキストベースの教師モデルがこれらの軌跡を評価し、トークンレベルのフィードバックを提供します。これにより、教師の能力を、生徒のマルチモーダル表現へと実質的に蒸留できます。複数のベンチマークにわたる大規模な実験により、X-OPDが複雑なタスクにおけるギャップを大幅に縮小しつつ、モデル本来の能力を維持することが示されます。

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

ベテランほど、AIを使った方がよい理由

note

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

note

死者をAIで「再現」できる時代に、私たちは何を守るべきか

note

X-OPD：音声LLMにおける能力整合のためのクロスモーダル・オンポリシー蒸留

要点

関連記事

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

死者をAIで「再現」できる時代に、私たちは何を守るべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

死者をAIで「再現」できる時代に、私たちは何を守るべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する