無制限音声の同時通訳のための階層型ポリシー最適化

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

同時通訳（SST）に対して、翻訳品質と低遅延性の両方を最適化する手法として階層型ポリシー最適化（HPO）を提案している。
先行研究の「対話タスク化」によりLLMのKVキャッシュを再利用して計算コストを下げる構成を踏まえつつ、無駄な特徴再計算を削減する。
人手による対話形式のSFTデータが不足しており品質も保証しにくい課題に対し、不完全なSFTデータから事後学習（post-training）することで対応する。
英語→中国語/ドイツ語/日本語の実験で、遅延1.5秒の条件下においてCOMETが+7以上、MetricXが+1.25の改善が報告されている。
検証用のアブレーション研究により、品質報酬や階層報酬の設計、セグメンテーション戦略などの有効性を体系的に確認している。
Point 1
Point 2
Point 3

概要: 同時音声翻訳（SST）は、音声入力の一部を受信しながら翻訳を生成します。近年の進展では、大規模言語モデル（LLM）がSSTの品質を大幅に向上できることが示されていますが、その代償として高い計算オーバーヘッドが必要になります。このコストを削減するために、先行研究ではSSTをマルチターンの対話タスクとして再定式化し、LLMの重要なキー・バリュー（KV）キャッシュを完全に再利用できるようにするとともに、冗長な特徴の再計算を排除する手法が提案されました。しかし、このアプローチは、対話形式での教師あり微調整（SFT）データに依存しており、そのような人手アノテーションはほとんど存在しません。また、既存の合成手法ではデータ品質を保証できません。本研究では、不完全なSFTデータで学習されたモデルを事後学習する、階層的ポリシー最適化（HPO）アプローチを提案します。翻訳品質とレイテンシ（遅延）の目的を両立させる階層的報酬を導入します。英語から中国語/ドイツ語/日本語への実験により、レイテンシ1.5秒の条件下でCOMETスコアが+7以上、MetricXスコアが+1.25以上改善することを示します。さらに、包括的なアブレーション研究により、異なる品質報酬、階層的報酬の定式化、セグメンテーション戦略の有効性が検証されています。コードはここで確認できます https://github.com/owaski/HPO