提案不要のクエリ誘導ネットワークによるグラウンデッド・マルチモーダル固有表現認識

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

共有:

要点

本論文は、テキストガイダンスとクロスモーダル相互作用を通じてマルチモーダル推論とデコーディングを統合する、提案を必要としないクエリ誘導ネットワーク（QGN）を、グラウンデッド・マルチモーダル固有表現認識（GMNER）のために提案する。
先に事前学習済み検出器に依存し、その後エンティティを整合させる2段階のGMNERアプローチを批判し、これらは正確なグラウンディングに必要な細粒度の領域を見逃す可能性がある。
QGNは外部の領域提案を排除し、標準的なGMNERベンチマークで最上位クラスの性能を持つ堅牢なオープンドメインのグラウンディングを実現する。
広範な実験により、QGNの有効性と現実世界のGMNERアプリケーションにおけるグラウンディング精度の向上に寄与する可能性が示されています。

要旨：Grounded Multimodal Named Entity Recognition (GMNER) は、自然言語テキスト中の固有表現（そのスパンと種類を含む）を識別し、それらを関連する画像の対応する領域に紐づけます。ほとんどの既存アプローチはこのタスクを二つのステップに分割します：まず事前学習済みの汎用検出器を用いて物体を検出し、その後検出された物体に固有表現を対応づけます。しかし、これらの方法には重大な制約があります。事前学習済みの汎用物体検出器はテキストの固有表現とは独立して動作するため、一般的な物体を検出しがちで、固有表現に必要な特定の微細な領域を頻繁に見落とします。この物体検出器と固有表現との間の不整合は不正確さを生み、全体のシステム性能を低下させる可能性があります。本論文では、テキストガイダンスとクロスモーダル相互作用を通じて多モーダル推論とデコーディングを統合する、提案なしのQuery-Guided Network（QGN）を提案します。QGNは、オープンドメインの状況で正確なグラウンディングと堅牢な性能を実現します。広範な実験により、QGNが広く使用されるベンチマーク上で、比較対象のGMNERモデルの中で最高の性能を達成することが示されています。