回答の分岐（Answer Divergence）による命令データ選択

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、命令ごとに生成された複数の回答の幾何学的性質を用いて、命令チューニングデータを選択するための Answer Divergence-Guided Selection（ADG）を提案する。
ADGは高温度で生成した複数の出力をサンプルし、それらを埋め込み、その発散度スコアを計算する。このスコアは、分散の大きさだけでなく、方向性／形状の異方性も捉えることで、多峰性の回答挙動を識別する。
2つのモデルバックボーンと3つの公開された命令プールにまたがる実験により、ADGで選択した1万件の例だけで微調整した場合が、推移的に強力な他の選択手法よりも、推論・知識・コーディングをカバーする6つのベンチマークで優れていることが示される。
アブレーション／分析では、分散の大きさと形状の異方性の両方が共同で必要であり、命令データ品質の実用的な指標として回答の分岐が有効であることが支持される。
本研究は、追加資料としてコードと付録を提供し、さらなる評価と再現を可能にしている。