AIのメタ認知を測定する
arXiv cs.AI / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、AIシステムが高リスクな意思決定ワークフローで使用されるにつれ、そのメタ認知能力――自らの出力の信頼性をどれだけ適切に評価できるか――を測定することが不可欠になると主張する。
- メタ認知感度の評価におけるゴールドスタンダードとして、信頼度(コンフィデンス)評価が正答と誤答をどれだけ効果的に分離するかを通じて行う meta-d' フレームワーク(およびモデルに依存しない代替手法)を提案する。
- さらに、シグナル検出理論(SDT)を用いて拡張し、AIモデルが不確実性やリスクの水準が変化する状況下で、判断を自発的に調整(自己調整)できるかどうかを定量化する。
- 著者らは、3つのLLM(GPT-5、DeepSeek-V3.2-Exp、Mistral-Medium-2508)を対象とした実験によって方法論を検証する。実験デザインは2種類で、(1) 判断後の信頼度評価、(2) 明示的な信頼度なしでリスクを操作した判断、である。
- 結果は、meta-d' がモデル同士の最適性の比較、同一タスク内でのモデル間比較、および同一モデルのタスク間比較に用いるのを支持する。またSDTは、リスクが増加するにつれてモデルがより慎重(コンベラティブ)になるかどうかを検定できる。




