要旨: マルチモーダル大型言語モデル(MLLMs)は、画像やテキストといったモダリティをまたいだ推論能力において注目すべき性能を示してきました。しかし、現実世界で重要なモダリティである表形式データは、多モーダル学習において比較的十分に研究されていないのが現状です。本論文では、表-視覚マルチモーダル理解(TVMU)の課題に焦点を当て、3つの中核的な課題を特定します:(1)表における高い構造的多様性とデータの不完備、(2)暗黙的かつ複雑な特徴依存関係、(3)下流タスク間における問題解決パイプラインの大きな異質性です。これらの問題に対処するために、Thinking with Tables(TWT)を提案します。TWTは、プログラム支援のコードベースのニューラル記号推論メカニズムを採用し、外部環境と相互作用することで、情報抽出や要素のモデリングといった重要な操作を促進します。代表的な8つのデータセットでTWTを評価します。実験結果は、TWTが精度において平均10 ext%の割合で既存のベースラインを一貫して上回り、TVMUタスクにおいて、商用の独自SOTA LLMと同等の性能、あるいはそれを上回る性能を達成することを示しています。モデルとコードは https://github.com/kunyang-YU/Thinking-with-Tables で利用可能です
Thinking with Tables: 神経記号推論によるマルチモーダル表データ理解の強化
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMが画像・テキストの領域では強力である一方、表データはあまり探究されていないことを指摘し、Tabular-Vision Multi-Modal Understanding(TVMU)の研究課題を動機づけている。
- TVMUにおける3つの主要課題として、表が構造的に多様であること、しばしば情報が欠落していること、そして異種の下流パイプライン間で生じる暗黙的・複雑な依存関係に対して推論が必要であることを挙げている。
- 提案手法であるThinking with Tables(TWT)は、プログラム補助型・コードベースの神経記号推論を用い、外部環境と相互作用することで、情報抽出や要素モデリングといった操作を支援する。
- 8つのTVMUデータセットにおいて、TWTは既存ベースラインに対して平均10%の精度向上を達成し、プロプライエタリな商用SOTA LLMと同等、またはそれを上回る性能に到達している。
- 著者らは、再現やさらなる実験を可能にするため、コードおよびモデルをGitHubリポジトリを通じて公開している。