比較的リバーサル学習は、非定常な不確実性下におけるLLMの硬直した適応を明らかにする
arXiv cs.AI / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、性能基準またはタイムアウトによって引き起こされるスイッチイベントを伴う非定常なリバーサル学習課題において、巨大言語モデルが逐次的意思決定ポリシーとしてどのように振る舞うかを研究する。
- DeepSeek-V3.2、Gemini-3、GPT-5.2のいずれにおいても、勝ち続け(win-stay)行動はほぼ上限に達している一方で、負けたら切り替える(lose-shift)行動は有意に弱く、肯定的な証拠と否定的な証拠への依存には非対称性があることを示している。
- モデルは異なる適応プロファイルを示す。DeepSeek-V3.2は、リバーサル後の強い固執(perseveration)と獲得の弱さが見られるのに対し、Gemini-3とGPT-5.2はより速く適応するが、それでも人間より損失への感度が低い。
- ランダムな遷移スケジュールを導入してボラティリティを高めると、全体としての勝率を必ずしも下げることなく、リバーサルに特化した持続性(persistence)が増幅されることが示される。これは、硬直した適応が高い集計的パフォーマンスと共存し得ることを示唆する。
- 階層型強化学習(hierarchical RL)の分析から、硬直性は損失学習の弱さ、過度に決定論的なポリシー、あるいは反実仮想の抑制による価値の分極化に起因する可能性がある。これにより、LLMに対するボラティリティを考慮した評価診断の必要性が示される。




