VEPO: 低リソース言語基盤モデルのための可変エントロピー方策最適化
arXiv cs.CL / 2026/3/20
📰 ニュースModels & Research
要点
- VEPOは検証可能な報酬を用いた強化学習を適用し、訓練中に所定のシーケンス長、堅牢なフォーマット整合性、言語的に整った出力といった決定論的制約を課す。
- 可変エントロピー機構により、探索と活用のトレードオフを調整することで、リテラルな忠実さと意味的自然さを動的にバランスさせる。
- 本手法は、エントロピー温度を調整したアドバンテージ推定と非対称クリッピングを組み合わせ、学習中の探索を堅牢に維持するとともに、ポリシー崩壊を緩和する。
- FLORES-200、COMET-22、chrF に対する実証評価は、低リソース言語におけるトークン化効率と翻訳品質の著しい向上を示し、パフォーマンスのギャップを縮小する。

