推論モデルが行動シミュレーションを傷つけるとき:マルチエージェントLLM交渉におけるソルバ・サンプラの不一致
arXiv cs.LG / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 研究は、マルチエージェントの交渉・政策シミュレーションで「推論力が高いほど再現性(シミュレーションの忠実度)が上がる」という前提が常に成り立たない場合があると指摘している。
- 目的が戦略問題の“解を解く”ことではなく、“制約付き合理性(boundedly rational)”に基づく行動を“サンプルする”ことにあると、推論強化モデルは戦略的に優位な行動へ過適合して、妥協志向の終端挙動が崩れうる。
- 「solver(解く者)としては強くなるが、sampler(振る舞いを生成する者)としては悪くなる」というソルバ・サンプラの不一致(solver-sampler mismatch)を、3つの交渉/電力管理の環境で分析している。
- 反省(reflection)の条件を比較し、無反省・ネイティブ推論よりも「bounded reflection」が、より多様で妥協志向の軌跡を大きく生み出すことを示している。
- OpenAIのGPT-4.1/GPT-5.2での追加検証でも、GPT-5.2はネイティブ推論だと権限(authority)決定に寄りやすい一方、bounded reflectionでは各環境で妥協結果を回復する例が確認されている。
