VEPO: 低リソース言語基盤モデルのための可変エントロピー方策最適化

arXiv cs.CL / 2026/3/20

📰 ニュースModels & Research

要点

  • VEPOは検証可能な報酬を用いた強化学習を適用し、訓練中に所定のシーケンス長、堅牢なフォーマット整合性、言語的に整った出力といった決定論的制約を課す。
  • 可変エントロピー機構により、探索と活用のトレードオフを調整することで、リテラルな忠実さと意味的自然さを動的にバランスさせる。
  • 本手法は、エントロピー温度を調整したアドバンテージ推定と非対称クリッピングを組み合わせ、学習中の探索を堅牢に維持するとともに、ポリシー崩壊を緩和する。
  • FLORES-200、COMET-22、chrF に対する実証評価は、低リソース言語におけるトークン化効率と翻訳品質の著しい向上を示し、パフォーマンスのギャップを縮小する。