広告

AIのメタ認知を測定する

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、AIシステムが高リスクな意思決定ワークフローで使用されるにつれ、そのメタ認知能力――自らの出力の信頼性をどれだけ適切に評価できるか――を測定することが不可欠になると主張する。
  • メタ認知感度の評価におけるゴールドスタンダードとして、信頼度(コンフィデンス)評価が正答と誤答をどれだけ効果的に分離するかを通じて行う meta-d' フレームワーク(およびモデルに依存しない代替手法)を提案する。
  • さらに、シグナル検出理論(SDT)を用いて拡張し、AIモデルが不確実性やリスクの水準が変化する状況下で、判断を自発的に調整(自己調整)できるかどうかを定量化する。
  • 著者らは、3つのLLM(GPT-5、DeepSeek-V3.2-Exp、Mistral-Medium-2508)を対象とした実験によって方法論を検証する。実験デザインは2種類で、(1) 判断後の信頼度評価、(2) 明示的な信頼度なしでリスクを操作した判断、である。
  • 結果は、meta-d' がモデル同士の最適性の比較、同一タスク内でのモデル間比較、および同一モデルのタスク間比較に用いるのを支持する。またSDTは、リスクが増加するにつれてモデルがより慎重(コンベラティブ)になるかどうかを検定できる。

広告