When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
arXiv cs.LG / 4/15/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 研究は、マルチエージェントの交渉・政策シミュレーションで「推論力が高いほど再現性(シミュレーションの忠実度)が上がる」という前提が常に成り立たない場合があると指摘している。
- 目的が戦略問題の“解を解く”ことではなく、“制約付き合理性(boundedly rational)”に基づく行動を“サンプルする”ことにあると、推論強化モデルは戦略的に優位な行動へ過適合して、妥協志向の終端挙動が崩れうる。
- 「solver(解く者)としては強くなるが、sampler(振る舞いを生成する者)としては悪くなる」という solver-sampler mismatch を、3つの交渉/電力管理の環境で分析している。
- 反省(reflection)の条件を比較し、無反省・ネイティブ推論よりも「bounded reflection」が、より多様で妥協志向の軌跡を大きく生み出すことを示している。
- OpenAIのGPT-4.1/GPT-5.2での追加検証でも、GPT-5.2はネイティブ推論だと権限(authority)決定に寄りやすい一方、bounded reflectionでは各環境で妥協結果を回復する例が確認されている。
Related Articles

Black Hat Asia
AI Business
Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]
Reddit r/MachineLearning

I built a trading intelligence MCP server in 2 days — here's how
Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
Reddit r/LocalLLaMA