嗜好最適化のモジュレータとしての固有相互情報量
arXiv cs.LG / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文では、DPOのようなオフライン嗜好最適化手法が抱える課題(特に過度なハイパーパラメータ調整への依存)を抑えることを目的に、RMiPOという軽量なフレームワークを提案しています。
- RMiPOは、応答レベルの固有相互情報量を用いて嗜好をモジュレートし、最小限の追加計算コストで嗜好の寄与を動的に切り離します。
- 実験の結果、RMiPOは既存のオフライン嗜好最適化手法よりも一貫して優れた性能を示します。
- また、学習オーバーヘッドを15%以上削減しつつ、アラインメント上の効果を損なわないことが示されています。
- 著者は、リンクされたGitHubリポジトリで実装コードを公開しています。



