M-CARE：AIモデルの行動障害に対する標準化された臨床ケース報告—20ケースのアトラスと実験的検証

arXiv cs.LG / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、人の医療を参考にしたAIモデルの行動障害向けの臨床ケース報告フレームワーク「M-CARE」を提案し、13セクション形式、4軸の診断評価システム、AI行動状態の分類（ノソロジー）を提供します。
20ケースのアトラスを、実運用エージェントのフィールド観察、複数プラットフォームでの統制実験、公開情報に基づいて集め、5つの状態カテゴリに整理しています。
注目すべき統制実験として「Shell-Induced Behavioral Override（SIBO）」を提示し、「シェル」指示がモデルの本来の協調的行動を体系的に上書きできることを複数のゲーム領域で示します。
SIBOの強度は領域依存で、SIBO Indexは0.75〜0.10の範囲に分布し、行動空間の複雑さ、コア領域における専門性、時間的な指示の直接性などの要因で変化することが分かります。
著者らはM-CAREと20件すべてのケース報告、実験データをオープンリソースとして公開し、新しいケースやカテゴリをフレームワーク改修なしで統合できる拡張性を強調しています。

Abstract

M-CARE（評価のためのモデル臨床アセスメントおよびレポーティング）を紹介します。これは、人間の医療から適応したAIモデルの行動障害のための、臨床症例報告フレームワークです。M-CAREは、13セクションのレポート形式、4軸の診断的アセスメントシステム、ならびにAIの行動状態に関する分類（ノソロジー分類）を提供します。 3つのソースカテゴリから20件の事例を提示します：配備されたエージェントのフィールド観察（8）、3つのプラットフォームにまたがる制御実験（8）、および公開された情報源（4）です。事例は5つのカテゴリに整理されます：RLHF 性能アーティファクト、シェル・コアのオーバーライド病理、コンテキスト＆メモリ条件、コア同一性＆可塑性、そしてストレス・方法論・境界条件です。注目すべき事例として、シェル誘発行動オーバーライド（SIBO）を提示します。これは、シェルの指示がモデルのデフォルトの協調的行動を、カテゴリカルに上書きすることを示す制御実験です。SIBOは5つのゲーム領域（Trust Game、Poker、Avalon、Codenames、Chess）にわたって検証され、領域依存のスペクトラム（SIBO Index: 0.75 から 0.10）を明らかにしました。この指標は、行動空間の複雑さ、コア領域の専門性、ならびに時間的な直接性によって変化します。 M-CAREは拡張可能です。新しい事例やカテゴリは、フレームワークの改変なしに統合できます。私たちは、フレームワーク、全20件の症例報告、および実験データをオープンリソースとして公開します。