SAKE：自己認識的な知識の活用・探索によるグラウンデッドマルチモーダル固有表現認識

arXiv cs.CL / 2026/4/23

💬 オピニオンModels & Research

共有:

要点

この論文は、画像とテキストのペアから名詞/固有表現を抽出し、それに対応する視覚領域を特定する「グラウンデッド・マルチモーダル固有表現認識（GMNER）」を、オープンワールドのソーシャルメディア環境で扱うことを目的としています。
既存手法は、ノイズを含みやすいヒューリスティックな外部知識探索に寄りがちで既知の固有表現の精度を下げるか、MLLM内での反復的な推論に頼りがちでモデルの知識限界や幻覚のリスクがある、と指摘しています。
提案するSAKEは、自己認識的な推論と、必要に応じて検索ツールを呼び出す適応的なメカニズムにより、内部の「知識活用」と外部の「知識探索」を統合します。
学習は2段階で行い、まず複数回のフォワードサンプリングでエンティティ単位の不確実性を定量化して知識ギャップ信号を作る「難易度に応じた検索タグ生成」を提案します。
次に、その信号に基づく高品質なチェーン・オブ・ソート（SAKE-SeCoT）データセットで自己認識とツール利用を学習させ、さらにエージェント強化学習で不要な検索を罰することで「検索が本当に必要か」を自律的に判断できるようにします。

Abstract

図像-テキスト対における名前付きエンティティを抽出し、その視覚的領域を特定することを目的とするGrounded Multimodal Named Entity Recognition（GMNER）は、さまざまな下流アプリケーションにとって重要な機能です。しかし、オープンワールドのソーシャルメディア・プラットフォームでは、長い尾を持つ分布、急速に変化する、かつ未見のエンティティが多数存在するため、GMNERは依然として難題です。これに対処するため、既存手法は一般に、ヒューリスティックな検索による外部知識探索、またはMultimodal Large Language Models（MLLMs）における反復的な洗練による内部知識活用のいずれかに依存しています。しかし、ヒューリスティックな検索は、ノイズや相反する根拠を持ち込みやすく、既知のエンティティに対する精度を低下させます。一方、内部の活用だけに頼る場合は、MLLMの知識の境界によって制約されるうえ、幻覚（ハルシネーション）を起こしやすいという問題があります。そこで本研究では、自己認識的推論と適応的な検索ツール呼び出しによって、内部知識活用と外部知識探索を調和させるエンドツーエンドのエージェント型フレームワークSAKEを提案します。これを2段階の学習パラダイムで実装します。まず、Difficulty-aware Search Tag Generation（難易度を考慮した検索タグ生成）を提案し、複数回のフォワード・サンプリングによってモデルのエンティティ単位の不確実性を定量化し、明示的な知識ギャップ信号を生成します。これらの信号に基づいて、SAKE-SeCoTという高品質なChain-of-Thoughtデータセットを構築し、教師あり微調整を通じて、モデルに基本的な自己認識とツール活用能力を与えます。次に、ハイブリッド報酬関数を用いたエージェント型強化学習を行います。この報酬関数は、不必要な検索を罰することで、モデルが検索の模倣に固執した状態から、「検索が本当に必要かどうか」を自覚的に判断できる状態へと進化することを可能にします。広く用いられている2つのソーシャルメディアのベンチマークにおける大規模な実験により、SAKEの有効性が示されます。