HighlightBench: 科学文書におけるマークアップ駆動の表推論をベンチマークする

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、ハイライト、下線、太字などの視覚的マークアップ指示を論理的な推論の指令としてどれだけマルチモーダルLLMが解釈できるかに焦点を当てた診断ベンチマーク「HighlightBench」を提案する。
「マークアップが見えていない」ことによる失敗と、「マークアップを用いた推論」の失敗を切り分けることで、重要な評価上の盲点に取り組む。タスクファミリは5つである。
ベンチマークは、Markup Grounding、Constrained Retrieval、Local Relations、Aggregation & Comparison、Consistency & Missingnessを含み、知覚と、構造化された表推論の両方の挙動をカバーする。
中間の判断を明示する参照パイプラインを提供し、再現性の高いベースラインと、知覚から実行までのチェーンにまたがるより粒度の細かい誤りの帰属を可能にする。
実験結果は、強力なモデルであっても、構造化出力制約のもとで視覚的手がかりを記号的推論と一貫して整合させる必要がある場合には不安定になり得ることを示している。

要旨: ハイライト、下線、太字などの視覚的マークアップは、表中心の文書において一般的です。マルチモーダル大規模言語モデル（MLLMs）は文書理解において大きく進展してきましたが、このような合図を明示的な論理指示として扱う能力は、十分に調査されていません。さらに重要なのは、既存の評価では、モデルがマークアップを見落としたのか、それともそれを用いて推論できなかったのかを区別できないことです。これにより、表に対するマークアップ条件付きのふるまいを評価する際の重要な見落とし（ブラインドスポット）が生じています。このギャップに対処するため、私たちは HighlightBench を導入します。HighlightBench は、マークアップ駆動の表理解のための診断ベンチマークであり、評価を 5 つのタスク系統に分解します。すなわち、Markup Grounding（マークアップの根拠づけ）、Constrained Retrieval（制約付き検索）、Local Relations（局所的関係）、Aggregation & Comparison（集約と比較）、Consistency & Missingness（整合性と欠落）です。加えて、途中の判断を明示化するリファレンス・パイプラインも提供します。これにより、再現可能なベースラインと、知覚から実行までのチェーンに沿った誤りのより細かな帰属が可能になります。実験の結果、構造化された出力制約の下で、視覚的合図をシンボル的推論と一貫して整合させる必要がある場合、たとえ強力なモデルであっても不安定さが残ることが示されました。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

HighlightBench: 科学文書におけるマークアップ駆動の表推論をベンチマークする

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer