推論モデルが行動シミュレーションを傷つけるとき：マルチエージェントLLM交渉におけるソルバ・サンプラの不一致

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

研究は、マルチエージェントの交渉・政策シミュレーションで「推論力が高いほど再現性（シミュレーションの忠実度）が上がる」という前提が常に成り立たない場合があると指摘している。
目的が戦略問題の“解を解く”ことではなく、“制約付き合理性（boundedly rational）”に基づく行動を“サンプルする”ことにあると、推論強化モデルは戦略的に優位な行動へ過適合して、妥協志向の終端挙動が崩れうる。
「solver（解く者）としては強くなるが、sampler（振る舞いを生成する者）としては悪くなる」というソルバ・サンプラの不一致（solver-sampler mismatch）を、3つの交渉／電力管理の環境で分析している。
反省（reflection）の条件を比較し、無反省・ネイティブ推論よりも「bounded reflection」が、より多様で妥協志向の軌跡を大きく生み出すことを示している。
OpenAIのGPT-4.1／GPT-5.2での追加検証でも、GPT-5.2はネイティブ推論だと権限（authority）決定に寄りやすい一方、bounded reflectionでは各環境で妥協結果を回復する例が確認されている。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH