HiPO：LLMの適応的推論のための階層型嗜好最適化

arXiv cs.AI / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複雑な多段推論タスクにおいてLLMをより適切にアラインするための、DPO拡張手法としてHiPO（階層型嗜好最適化）を提案している。
HiPOは、応答を「質問の明確化／文脈」「推論ステップ」「最終回答」という階層的なセグメントに分割し、各セグメントに対して重み付きのDPO形式の損失を適用することで学習のきめ細かさを高める。
既存手法が安定した嗜好学習（DPO派生）と構造化推論（マルチエージェント強化学習やTree of Thoughts）を別々に扱うのに対し、HiPOは両方の利点の統合を狙っている。
Math Stack Exchangeの嗜好データセットで、複数の7B LLMをHiPOとDPOで微調整した実験では、HiPOを用いたモデルが共通の数学ベンチマークで一貫してより良い性能を示した。
GPT-4.1による評価指標から、HiPOは応答の整理性、論理の流れ、整合性の面で改善が見られることが示されている。