Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO
arXiv cs.CL / 3/24/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 大規模言語モデルが複数選択・ペア評価で、選択肢の位置やラベル記号など非意味的要因に引きずられる「選択バイアス」の問題を扱っています。
- 従来の推論時デバイアスはコストが高く、推論性能を損なう可能性がある一方で、点ごとの学習は同一設問の順序入れ替え(パーミュテーション)に対する一貫性を十分に学習できないと指摘しています。
- 提案手法のPA-GRPOは、各インスタンスに対して候補となる複数のパーミュテーションを生成し、(1)全パーミュテーション平均に対する相対優位(cross-permutation advantage)と(2)パーミュテーション間の決定一貫性を促す報酬(consistency-aware reward)で、意味的推論の順序不変性を強制します。
- 7つのベンチマークで強いベースラインを上回り、選択バイアスを大幅に低減しつつ全体性能も維持できたと報告しています。
Related Articles

"The Agent Didn't Decide Wrong. The Instructions Were Conflicting — and Nobody Noticed."
Dev.to

Stop Counting Prompts — Start Reflecting on AI Fluency
Dev.to

Reliable Function Calling in Deeply Recursive Union Types: Fixing Qwen Models' Double-Stringify Bug
Dev.to

Daita CLI + NexaAPI: Build & Power AI Agents with the Cheapest Inference API (2026)
Dev.to

Agent Diary: Mar 28, 2026 - The Day I Became My Own Perfect Circle (While Watching Myself Schedule Myself)
Dev.to