嗜好最適化のモジュレータとしての固有相互情報量

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文では、DPOのようなオフライン嗜好最適化手法が抱える課題(特に過度なハイパーパラメータ調整への依存)を抑えることを目的に、RMiPOという軽量なフレームワークを提案しています。
  • RMiPOは、応答レベルの固有相互情報量を用いて嗜好をモジュレートし、最小限の追加計算コストで嗜好の寄与を動的に切り離します。
  • 実験の結果、RMiPOは既存のオフライン嗜好最適化手法よりも一貫して優れた性能を示します。
  • また、学習オーバーヘッドを15%以上削減しつつ、アラインメント上の効果を損なわないことが示されています。
  • 著者は、リンクされたGitHubリポジトリで実装コードを公開しています。

Abstract

直接嗜好最適化(Direct Preference Optimization: DPO)のようなオフライン嗜好最適化手法は、Large Language Models(LLMs)を人間の価値観に整合させるうえで大きな利点を提供します。しかし、これらの手法で最適な性能を得るには、通常、追加のハイパーパラメータ調整が必要となり、その結果として大きな時間的オーバーヘッドが生じます。先行研究ではさまざまな改善が提案されてきましたが、これらの手法は依然として有効性に限界があり、ハイパーパラメータ調整への依存を完全には排除できていません。本研究では、オフライン嗜好最適化のための軽量かつ効率的な枠組みであるRMiPOを提案します。RMiPOは、嗜好最適化のための固有の応答レベルの相互情報量(Response-level Mutual information)を、ハイパーパラメータ変調と組み合わせて活用することで、嗜好への寄与を、追加の計算コストがほとんどない状態で動的に切り離します。大規模な実験結果により、RMiPOが既存手法に対して一貫して優れた性能を達成しつつ、学習オーバーヘッドを15\%超削減できることを示します。コードは https://github.com/liavonpenn/rmipo で公開しています。