無制限音声の同時通訳のための階層型ポリシー最適化

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 同時通訳(SST)に対して、翻訳品質と低遅延性の両方を最適化する手法として階層型ポリシー最適化(HPO)を提案している。
  • 先行研究の「対話タスク化」によりLLMのKVキャッシュを再利用して計算コストを下げる構成を踏まえつつ、無駄な特徴再計算を削減する。
  • 人手による対話形式のSFTデータが不足しており品質も保証しにくい課題に対し、不完全なSFTデータから事後学習(post-training)することで対応する。
  • 英語→中国語/ドイツ語/日本語の実験で、遅延1.5秒の条件下においてCOMETが+7以上、MetricXが+1.25の改善が報告されている。
  • 検証用のアブレーション研究により、品質報酬や階層報酬の設計、セグメンテーション戦略などの有効性を体系的に確認している。
  • Point 1
  • Point 2
  • Point 3

概要: 同時音声翻訳(SST)は、音声入力の一部を受信しながら翻訳を生成します。近年の進展では、大規模言語モデル(LLM)がSSTの品質を大幅に向上できることが示されていますが、その代償として高い計算オーバーヘッドが必要になります。このコストを削減するために、先行研究ではSSTをマルチターンの対話タスクとして再定式化し、LLMの重要なキー・バリュー(KV)キャッシュを完全に再利用できるようにするとともに、冗長な特徴の再計算を排除する手法が提案されました。しかし、このアプローチは、対話形式での教師あり微調整(SFT)データに依存しており、そのような人手アノテーションはほとんど存在しません。また、既存の合成手法ではデータ品質を保証できません。本研究では、不完全なSFTデータで学習されたモデルを事後学習する、階層的ポリシー最適化(HPO)アプローチを提案します。翻訳品質とレイテンシ(遅延)の目的を両立させる階層的報酬を導入します。英語から中国語/ドイツ語/日本語への実験により、レイテンシ1.5秒の条件下でCOMETスコアが+7以上、MetricXスコアが+1.25以上改善することを示します。さらに、包括的なアブレーション研究により、異なる品質報酬、階層的報酬の定式化、セグメンテーション戦略の有効性が検証されています。コードはここで確認できます https://github.com/owaski/HPO