2D構造理解のための補完的な視覚とテキスト情報の活用方法

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

LLMは通常、2Dの表を1Dの系列に線形化するため、行と列の隣接性やレイアウトの手掛かりが弱まる。
純粋な視覚エンコーダは空間的手掛かりを捉えることはできるが、セル内の正確なテキストを保持することはしばしば難しい。
本論文は、視覚とテキストがLLMに対して非常に補完的な情報を提供することを示すが、単純な融合は得られる利益が限定的で、モーダル間の干渉を引き起こすことがある。
彼らはDiVA-Formerを提案する。視覚トークンをダイナミッククエリとして用い、長いテキスト列を要約ベクトルに蒸留する軽量なアーキテクチャで、補完的な視覚–テキスト情報を効果的に活用する。
13の表ベンチマーク全体で、DiVA-Formerは純テキストのベースラインを23.9％改善し、視覚・テキスト、あるいは両方の入力を用いたベースラインを一貫して上回る。

要約： LLMは通常、2Dの表を1Dの系列に線形化して自己回帰型アーキテクチャに適合させる。その結果、行-列の隣接性やその他のレイアウト手掛かりが弱まる。これに対して、純粋な視覚エンコーダは空間的手掛かりを捉えることができるが、正確なセルのテキストを忠実に保持することはしばしば困難である。私たちの分析は、これらの2つのモダリティがLLMsに対して非常に異なる情報を提供し、強い補完性を示すことを明らかにしている。しかし、直接的な連結や他の融合手法は限られた効果しかもたらさず、しばしばクロスメディア干渉を引き起こす。この問題に対処するため、視覚情報とテキスト情報を効果的に統合する軽量なアーキテクチャであるDiVA-Formerを提案する。DiVA-Formerは視覚トークンを動的クエリとして活用し、長いテキスト列を要約ベクターに蒸留することにより、補完的な視覚とテキスト情報を効果的に活用する。13のテーブルベンチマークで評価され、DiVA-Formerは純テキストのベースラインを23.9%改善し、視覚入力、テキスト入力、またはその両方の組み合わせを用いた既存のベースラインに対して一貫した利得を達成する。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

2D構造理解のための補完的な視覚とテキスト情報の活用方法

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer