Thinking with Tables: 神経記号推論によるマルチモーダル表データ理解の強化

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMが画像・テキストの領域では強力である一方、表データはあまり探究されていないことを指摘し、Tabular-Vision Multi-Modal Understanding（TVMU）の研究課題を動機づけている。
TVMUにおける3つの主要課題として、表が構造的に多様であること、しばしば情報が欠落していること、そして異種の下流パイプライン間で生じる暗黙的・複雑な依存関係に対して推論が必要であることを挙げている。
提案手法であるThinking with Tables（TWT）は、プログラム補助型・コードベースの神経記号推論を用い、外部環境と相互作用することで、情報抽出や要素モデリングといった操作を支援する。
8つのTVMUデータセットにおいて、TWTは既存ベースラインに対して平均10%の精度向上を達成し、プロプライエタリな商用SOTA LLMと同等、またはそれを上回る性能に到達している。
著者らは、再現やさらなる実験を可能にするため、コードおよびモデルをGitHubリポジトリを通じて公開している。

要旨: マルチモーダル大型言語モデル（MLLMs）は、画像やテキストといったモダリティをまたいだ推論能力において注目すべき性能を示してきました。しかし、現実世界で重要なモダリティである表形式データは、多モーダル学習において比較的十分に研究されていないのが現状です。本論文では、表-視覚マルチモーダル理解（TVMU）の課題に焦点を当て、3つの中核的な課題を特定します:（1）表における高い構造的多様性とデータの不完備、（2）暗黙的かつ複雑な特徴依存関係、（3）下流タスク間における問題解決パイプラインの大きな異質性です。これらの問題に対処するために、Thinking with Tables（TWT）を提案します。TWTは、プログラム支援のコードベースのニューラル記号推論メカニズムを採用し、外部環境と相互作用することで、情報抽出や要素のモデリングといった重要な操作を促進します。代表的な8つのデータセットでTWTを評価します。実験結果は、TWTが精度において平均10 ext%の割合で既存のベースラインを一貫して上回り、TVMUタスクにおいて、商用の独自SOTA LLMと同等の性能、あるいはそれを上回る性能を達成することを示しています。モデルとコードは https://github.com/kunyang-YU/Thinking-with-Tables で利用可能です

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

Thinking with Tables: 神経記号推論によるマルチモーダル表データ理解の強化

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer