要旨: 画像の表を解析するためにマルチモーダル基盤モデルを用いることは、一般消費者および企業のシナリオにおいて高い価値がある一方で、非常に難しい応用です。その重要性にもかかわらず、現状の評価は主として構造化テキストの表、またはきれいにレンダリングされた画像に依存しており、現実の環境に存在する表画像の視覚的な複雑さは十分に調査されていません。そのような画像には、さまざまなレイアウトや多様なドメインが含まれており、高度な構造知覚と数値推論を必要とします。このギャップを埋めるために、実世界の状況から自然に生成された表画像を対象とした最初の質問応答ベンチマークであるWildTableBenchを提案します。WildTableBenchは、多様なドメインにまたがるオンラインフォーラムやウェブサイトから収集した、高情報密度の表画像402枚で構成されます。さらに、5つのカテゴリにまたがる17のサブタイプを対象として、手作業で注釈付けされ検証済みの質問928件も併せて含みます。このベンチマークに対して、21の最先端の独自およびオープンソースのマルチモーダル基盤モデルを評価します。50%を超える精度を上回るのは1つのモデルのみであり、残りのすべてのモデルは4.1%から49.9%の範囲に収まります。加えて、診断分析を行い、モデルの失敗の特徴を明らかにするとともに、構造知覚および推論における持続的な弱点を示します。これらの結果と分析は、現在のモデル能力への有用な洞察を提供し、表画像理解における価値ある診断用ベンチマークとしてWildTableBenchを確立します。
WildTableBench:実世界の表を理解するマルチモーダル基盤モデルをベンチマークする
arXiv cs.CV / 2026/5/5
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、「実世界の」表画像に対する質問応答を対象にした新しいベンチマークWildTableBenchを提案し、整然としたテキスト表や綺麗なレンダリング画像ではない入力を扱います。
- WildTableBenchは、情報密度の高い表画像402枚と、17のサブタイプ・5つのカテゴリにまたがる928件の手動で注釈・検証済みの質問から構成されます。
- ベンチマークでは、マルチモーダル基盤モデル21種(プロプライエタリおよびオープンソース)を評価し、50%超の精度を達成したのは1モデルのみで、多くは4.1%〜49.9%と低いことが示されます。
- 解析(診断分析)により、レイアウトが多様でドメイン固有の複雑さを持つ表で、構造の認識と数値推論における弱点が継続的に失敗の要因になっていることが明らかにされます。
- 総じて本研究は、表画像理解に関する現行マルチモーダルモデルの能力をより適切に把握するための診断ツールとしてWildTableBenchの有用性を位置づけています。




