概念フラストレーション：人間の概念と機械の表現を整合させる

arXiv stat.ML / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

研究は、基礎モデルの埋め込みから得た無教師の中間表現と、人が解釈できる教師付き概念を幾何学的枠組みで比較する手法を提案しています。
「概念フラストレーション（concept frustration）」を、未知の概念が既知概念間に矛盾した関係を生み出し、既存のオントロジー内で整合させられない状況として定式化しています。
ユークリッド距離のような従来比較では捉えにくい概念フラストレーションを、タスク整合的な類似度（task-aligned similarity）により検出できることを示しています。
線形ガウス生成モデルの仮定の下で、概念ベース分類器のベイズ最適精度を既知-既知／既知-未知／未知-未知の寄与に分解し、フラストレーションが性能にどう影響するかを解析的に明らかにしています。
合成データと実データ（言語・視覚）での実験により、フラストレーションが基礎モデル表現で検出可能であり、解釈可能モデルへ「フラストレーションを含む概念」を組み込むと幾何が再編され、人と機械の推論整合が改善しうることを報告しています。

要旨: 人間が解釈可能な概念を、現代の機械学習システムが学習する内部表現と整合させることは、解釈可能AIにとって依然として中心的な課題である。私たちは、基盤モデルの埋め込みから抽出された教師なしの中間表現と、教師ありの人間の概念を比較するための幾何学的枠組みを提案する。科学的発見における概念の飛躍の役割に動機づけられ、概念フラストレーション（concept frustration）という概念を形式化する。これは、観測されていない概念が、既知の概念同士の間に関係を誘発するにもかかわらず、既存のオントロジーの中でそれらを整合的に作ることができないときに生じる矛盾である。私たちは、教師ありの概念ベースモデルと、基盤モデルから導出される教師なし表現の間で概念フラストレーションを検出する、タスクに整合した類似度指標を開発し、従来のユークリッド比較では失敗する一方で、タスクに整合した幾何ではこの現象が検出可能であることを示す。線形ガウスの生成モデルの下で、ベイズ最適な概念ベース分類器の精度について閉形式の式を導出し、予測に寄与する信号を known-known、known-unknown、unknown-unknown の寄与に分解することで、フラストレーションが性能にどこで影響するかを解析的に特定する。合成データおよび実世界の言語・視覚タスクに関する実験により、フラストレーションが基盤モデルの表現中で検出できること、また解釈可能なモデルにフラストレーションを生む概念を取り込むと、学習された概念表現の幾何が再編され、人間と機械の推論をよりよく整合させられることを示す。これらの結果は、不完全な概念オントロジーを診断し、人間と機械の概念的推論を整合させるための、原理に基づく枠組みを示唆しており、高リスク用途における安全で解釈可能なAIの開発と検証に示唆を与える。