AI Navigate

2D構造理解のための補完的な視覚とテキスト情報の活用方法

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • LLMは通常、2Dの表を1Dの系列に線形化するため、行と列の隣接性やレイアウトの手掛かりが弱まる。
  • 純粋な視覚エンコーダは空間的手掛かりを捉えることはできるが、セル内の正確なテキストを保持することはしばしば難しい。
  • 本論文は、視覚とテキストがLLMに対して非常に補完的な情報を提供することを示すが、単純な融合は得られる利益が限定的で、モーダル間の干渉を引き起こすことがある。
  • 彼らはDiVA-Formerを提案する。視覚トークンをダイナミッククエリとして用い、長いテキスト列を要約ベクトルに蒸留する軽量なアーキテクチャで、補完的な視覚–テキスト情報を効果的に活用する。
  • 13の表ベンチマーク全体で、DiVA-Formerは純テキストのベースラインを23.9%改善し、視覚・テキスト、あるいは両方の入力を用いたベースラインを一貫して上回る。

要約: LLMは通常、2Dの表を1Dの系列に線形化して自己回帰型アーキテクチャに適合させる。その結果、行-列の隣接性やその他のレイアウト手掛かりが弱まる。これに対して、純粋な視覚エンコーダは空間的手掛かりを捉えることができるが、正確なセルのテキストを忠実に保持することはしばしば困難である。私たちの分析は、これらの2つのモダリティがLLMsに対して非常に異なる情報を提供し、強い補完性を示すことを明らかにしている。しかし、直接的な連結や他の融合手法は限られた効果しかもたらさず、しばしばクロスメディア干渉を引き起こす。この問題に対処するため、視覚情報とテキスト情報を効果的に統合する軽量なアーキテクチャであるDiVA-Formerを提案する。DiVA-Formerは視覚トークンを動的クエリとして活用し、長いテキスト列を要約ベクターに蒸留することにより、補完的な視覚とテキスト情報を効果的に活用する。13のテーブルベンチマークで評価され、DiVA-Formerは純テキストのベースラインを23.9%改善し、視覚入力、テキスト入力、またはその両方の組み合わせを用いた既存のベースラインに対して一貫した利得を達成する。