AIのメタ認知を測定する

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AIシステムが高リスクな意思決定ワークフローで使用されるにつれ、そのメタ認知能力――自らの出力の信頼性をどれだけ適切に評価できるか――を測定することが不可欠になると主張する。
メタ認知感度の評価におけるゴールドスタンダードとして、信頼度（コンフィデンス）評価が正答と誤答をどれだけ効果的に分離するかを通じて行う meta-d' フレームワーク（およびモデルに依存しない代替手法）を提案する。
さらに、シグナル検出理論（SDT）を用いて拡張し、AIモデルが不確実性やリスクの水準が変化する状況下で、判断を自発的に調整（自己調整）できるかどうかを定量化する。
著者らは、3つのLLM（GPT-5、DeepSeek-V3.2-Exp、Mistral-Medium-2508）を対象とした実験によって方法論を検証する。実験デザインは2種類で、(1) 判断後の信頼度評価、(2) 明示的な信頼度なしでリスクを操作した判断、である。
結果は、meta-d' がモデル同士の最適性の比較、同一タスク内でのモデル間比較、および同一モデルのタスク間比較に用いるのを支持する。またSDTは、リスクが増加するにつれてモデルがより慎重（コンベラティブ）になるかどうかを検定できる。