比較的リバーサル学習は、非定常な不確実性下におけるLLMの硬直した適応を明らかにする

arXiv cs.AI / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、性能基準またはタイムアウトによって引き起こされるスイッチイベントを伴う非定常なリバーサル学習課題において、巨大言語モデルが逐次的意思決定ポリシーとしてどのように振る舞うかを研究する。
DeepSeek-V3.2、Gemini-3、GPT-5.2のいずれにおいても、勝ち続け（win-stay）行動はほぼ上限に達している一方で、負けたら切り替える（lose-shift）行動は有意に弱く、肯定的な証拠と否定的な証拠への依存には非対称性があることを示している。
モデルは異なる適応プロファイルを示す。DeepSeek-V3.2は、リバーサル後の強い固執（perseveration）と獲得の弱さが見られるのに対し、Gemini-3とGPT-5.2はより速く適応するが、それでも人間より損失への感度が低い。
ランダムな遷移スケジュールを導入してボラティリティを高めると、全体としての勝率を必ずしも下げることなく、リバーサルに特化した持続性（persistence）が増幅されることが示される。これは、硬直した適応が高い集計的パフォーマンスと共存し得ることを示唆する。
階層型強化学習（hierarchical RL）の分析から、硬直性は損失学習の弱さ、過度に決定論的なポリシー、あるいは反実仮想の抑制による価値の分極化に起因する可能性がある。これにより、LLMに対するボラティリティを考慮した評価診断の必要性が示される。

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

この推測は、あながち的外れではないのでは？

Reddit r/LocalLLaMA

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

Dev.to

比較的リバーサル学習は、非定常な不確実性下におけるLLMの硬直した適応を明らかにする

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ