Permutation-Aware GRPO による大規模言語モデルにおける選択バイアスの緩和

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

大規模言語モデルが、複数選択・ペア評価において、選択肢の位置やラベル記号など意味を持たない要因に引きずられる「選択バイアス」の問題を扱っています。
従来の推論時デバイアスはコストが高く、推論性能を損なう可能性がある一方で、点ごとの学習では同一設問の順序入れ替え（パーミュテーション）に対する一貫性を十分に学習できないと指摘しています。
提案手法の PA-GRPO は、各インスタンスに対して候補となる複数のパーミュテーションを生成し、(1) 全パーミュテーション平均に対する相対的優位（cross-permutation advantage）と (2) パーミュテーション間の決定一貫性を促す報酬（consistency-aware reward）によって、意味的推論の順序不変性を強制します。
7つのベンチマークで強いベースラインを上回り、選択バイアスを大幅に低減しつつ全体性能も維持できたと報告しています。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to