概要: 文書理解は、金融分野における与信審査、オンボーディング、および遠隔での検証において重要な能力です。ここでは、判断の正確性と証拠の追跡可能性の両方が重要になります。静的な文書画像と比べて、文書動画は時間的に冗長で、かつ時系列に展開される証拠のストリームを提示します。フレーム間での証拠統合が必要であり、さらに真正性に配慮した審査や不正防止の観点で関連する取得プロセスの手がかりも保持されます。私たちは、現実的な撮影条件のもとで文書知覚、時間的な位置づけ、および証拠に基づく推論を評価する、文書動画インテリジェンスのためのベンチマークであるFCMBench-Videoを提案します。プライバシーに準拠しつつ現実的なデータを大規模に提供するために、構築を「原子的な取得」と「構成」のワークフローとして整理し、再利用可能な単一文書クリップを記録し、制御された劣化を適用し、所定の時間範囲を持つ長尺の複数文書動画を組み立てます。FCMBench-Videoは、原子的な495本の動画から1,200本の長尺動画を構成し、さらに11,322件の専門家による注釈付きの質問--回答インスタンスを組み合わせています。28種類の文書タイプを、20秒--60秒の期間ティアにまたがってカバーし、5,960件の中国語/5,362件の英語インスタンスを含みます。直近の9つのVideo-MLLMに対する評価により、FCMBench-Videoがシステム間および能力間の有意義な差別化を提供することが示されました。計数は最も期間に敏感なタスクであり、Cross-Document ValidationおよびEvidence-Grounded Selectionはより高次の証拠統合を検証し、Visual Prompt Injectionは補完的な頑健性の次元を提供します。全体のスコア分布は広く、概ねベル型であり、ベンチマークが飽和しているわけでも、些末なケースに支配されているわけでもないことを示しています。これらの結果から、FCMBench-Videoは、文書動画理解におけるVideo-MLLMの進歩を追跡し、真正性に配慮した与信ドメインのアプリケーションにおける能力境界を探るための、再現可能なベンチマークとして位置づけられます。
FCMBench-Video:ドキュメント動画インテリジェンスのベンチマーク
arXiv cs.CV / 2026/4/29
📰 ニュースSignals & Early TrendsModels & Research
要点
- この論文では、金融領域の与信審査やオンライン本人確認などで重要となる「正確性」と「証拠のトレーサビリティ」を重視した、ドキュメント動画インテリジェンス向けの新しいベンチマークFCMBench-Videoを提案しています。
- 静止画と比べてドキュメント動画は、フレームをまたいで証拠を統合する必要がある時間的・逐次的な証拠の流れを含み、真正性(改ざん検知など)に関わる撮影プロセス由来の手がかりも保持します。
- ベンチマークは、プライバシーに配慮しつつ現実的なデータを大規模に作るために、再利用可能な単一ドキュメントのクリップ(atomic)を記録し、制御された劣化を加え、所定の時間幅で長尺の複数ドキュメント動画を合成するワークフローで構築されています。
- FCMBench-Videoには、atomic動画495本から合成した長尺動画1,200本と、28種類の文書にまたがる11,322件の専門家注釈付きQAが含まれ、中国語・英語のケースも含みます。
- 9つの最新のVideo-MLLMでの評価では、ベンチマークがシステム間の差や能力の違いを適切に分離できることが示され、所要時間に最も敏感なタスクや、証拠統合・堅牢性(視覚プロンプトインジェクション等)を探る観点が確認されています。



