シャットダウン可能なアリジェントへのアプローチ：強化学習エージェントとLLMにおける確率的選択の一般化

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、同じ長さの軌跡を繰り返し選ぶことを抑えることで、AIエージェントをより「シャットダウン可能」にするための報酬関数「Discounted Reward for Same-Length Trajectories（DReST）」を提案する。
DReSTは、軌跡の長さに関して中立（異なる長さの軌跡を確率的に選択）であることを促しつつ、目標達成という意味で有用（Useful）であることも維持することを狙っている。
著者らはDReSTを用いて深層強化学習エージェントを学習させ、同様の目的でLLMを微調整し、その振る舞いが未見の状況でテスト時に一般化するかを検証する。
結果として、ベースラインより「有用性」が改善し（PPOで11%増、A2Cで18%増）、微調整したLLMは有用性最大かつ中立性がほぼ最大となった。
本研究は、DReSTが「有用性」とシャットダウン抵抗性に関する懸念の両立を目指したより高度なエージェント学習の実用的手法になり得るという、初期の根拠を提供する。

概要: ミスアラインされた人工エージェントは、シャットダウンに抵抗するかもしれません。提案されている解決策の1つは、異なる長さの軌道（トラジェクトリ）間で嗜好（preferences）がないようにエージェントを訓練することです。同長軌道のための割引報酬（Discounted Reward for Same-Length Trajectories：DReST）報酬関数は、エージェントが同じ長さの軌道を繰り返し選ぶことに対して罰則を与えることでこれを実現し、その結果エージェントに (1) 異なる軌道長の間で確率的に選択させ（軌道長に中立になる）、および (2) 各軌道長に条件付けて目標を効果的に追求させる（有用になる）ことを促します。本論文では、DReSTを用いて深層強化学習（deep RL）エージェントを訓練し、LLMを微調整して中立かつ有用になるようにします。テスト時に、これらのDReSTエージェントは、見たことのない状況（unseen contexts）においても中立かつ有用である性質へと一般化することを見いだします。実際に、DReSTのRLエージェントは、テストセットにおいてベースラインのエージェントよりも有用性（Usefulness）が11%（PPO）および18%（A2C）高く、微調整したLLMは最大の有用性と、ほぼ最大の中立性を達成します。これらの結果は、DReSTがより高度なエージェントを「有用で中立」になるように訓練するために使える可能性について、初期の証拠を提供します。先行する理論的研究では、これらのエージェントが有用であり、かつシャットダウン可能であることが示唆されています。