要旨: 大規模言語モデル(LLMs)の急速な発展に伴い、LLMに基づく情報抽出に注目する研究者がますます増えています。しかし、既存の関連手法にはまだ改善の余地があります。第一に、既存のマルチモーダル情報抽出(MIE)手法は通常、LLMの入力と出力として自然言語テンプレートを用いますが、これは、実体や関係などの構造化情報を主に含む情報タスクの特性と適合していません。第二に、いくつかの手法では、構造化され、情報抽出に適したコード風テンプレートを採用していますが、それらはマルチモーダルMIEではなく、テキストのみのIEに対して手法を検討しているにとどまります。さらに、それらの手法は設計がより複雑であり、タスクごとに個別のテンプレートを設計する必要があります。本論文では、MIEを統一的なコード理解および生成として形式化するコード風マルチモーダル情報抽出フレームワーク(Code-MIE)を提案します。Code-MIEには以下の新規設計があります:(1)性別、所属などの実体属性をテキストから抽出し、モデルが実体の文脈と役割を理解するよう誘導します。(2)画像をシーングラフおよび視覚的特徴に変換し、豊かな視覚情報をモデルに取り込むようにします。(3)入力テンプレートはPython関数として構築し、実体属性、シーングラフ、生のテキストが関数パラメータを構成します。これに対し、出力テンプレートは、実体、関係などのすべての抽出結果を含むPython辞書として形式化されます。Code-MIEを評価するために、M^3D、Twitter-15、Twitter-17、MNREの各データセットで大規模な実験を行いました。その結果、本手法は6つの競合ベースラインモデルと比較して最先端の性能を達成しており、M^3Dの英語データセットおよび中国語データセットでそれぞれ61.03 ext{%}および60.49 ext{%}、その他3つのデータセットでそれぞれ76.04 ext{%}、88.07 ext{%}、および73.94 ext{%}という結果が得られました。
Code-MIE:シーン・グラフとエンティティ属性知識強化を用いた、マルチモーダル情報抽出のためのコード風モデル
arXiv cs.CL / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル情報抽出(MIE)を、テンプレートに基づくテキスト入出力ではなく、構造化されたコードの理解および生成として捉え直すコード風フレームワーク「Code-MIE」を提案する。
- 性別や所属などのエンティティ属性知識をテキストから抽出し、それを条件付けに用いることで、エンティティ抽出を強化する。
- 画像はシーン・グラフへ変換され、視覚特徴と組み合わせられる。これにより、抽出において関係性および視覚的な証拠を取り込めるようにする。
- 本手法では、Python関数の入力テンプレート(エンティティ属性、シーン・グラフ、元のテキストを受け取る)を用い、抽出結果を、エンティティ、関係、関連フィールドを含むPython辞書として出力する。
- M$^3$D、Twitter-15、Twitter-17、MNREにおける実験では最先端の結果が報告されており、複数のベースラインとなるマルチモーダルIE手法に比べて性能が向上していることが示される。