SAKE:自己認識的な知識の活用・探索によるグラウンデッド マルチモーダル固有表現認識
arXiv cs.CL / 2026/4/23
💬 オピニオンModels & Research
要点
- この論文は、画像とテキストのペアから名詞/固有表現を抽出し、それに対応する視覚領域を特定する「グラウンデッド・マルチモーダル固有表現認識(GMNER)」を、オープンワールドのソーシャルメディア環境で扱うことを目的としています。
- 既存手法は、ノイズを含みやすいヒューリスティックな外部知識探索に寄りがちで既知の固有表現の精度を下げるか、MLLM内での反復的な推論に頼りがちでモデルの知識限界や幻覚のリスクがある、と指摘しています。
- 提案するSAKEは、自己認識的な推論と、必要に応じて検索ツールを呼び出す適応的なメカニズムにより、内部の「知識活用」と外部の「知識探索」を統合します。
- 学習は2段階で行い、まず複数回のフォワードサンプリングでエンティティ単位の不確実性を定量化して知識ギャップ信号を作る「難易度に応じた検索タグ生成」を提案します。
- 次に、その信号に基づく高品質なチェーン・オブ・ソート(SAKE-SeCoT)データセットで自己認識とツール利用を学習させ、さらにエージェント強化学習で不要な検索を罰することで「検索が本当に必要か」を自律的に判断できるようにします。


