検索ではなくスキャン：スキャン指向の学術論文推論でMLLMをベンチマークする

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の学術論文推論ベンチマークは主に検索（search）指向であるため、研究者のような全文理解、照合、検証を捉えられていないと主張する。
multimodal LLM に対し、論文を全体として読み込み整合性の問題を特定させる新しいスキャン（scan）指向ベンチマーク ScholScan を提案する。
ScholScan には、9つの誤りカテゴリにまたがる1800件の注釈付き質問が含まれ、13の自然科学分野と715本の論文をカバーする。証拠の位置特定と推論トレースに加え、統一された評価プロトコルも備える。
24種類の入力設定で15モデルを用いた実験では、検索拡張生成（RAG）は有意な改善をもたらさず、スキャン指向タスクにおける体系的な弱点が浮き彫りになった。
著者らは、提案するスキャン指向パラダイムにおける学術論文推論の代表的ベンチマークとして ScholScan を位置付ける。

要旨: マルチモーダル大規模言語モデル（MLLMs）の急速な進歩により、AIはすでに文献検索や特定の推論タスクにおいて優れた性能を示し、人間の研究者にとって有能なアシスタントとして機能していますが、それでもなお、自律的な研究からは大きく程遠いのが現状です。この根本的な理由は、学術論文の推論に関する現在の研究が、事前に指定された対象を中心とする検索志向のパラダイムに大きく限定されており、関連性の検索に基づく推論では、研究者のスタイルによる全文理解、推論、検証を十分に支えることが難しいためです。このギャップを埋めるために、我々は extbf{ScholScan} という学術論文推論の新しいベンチマークを提案します。ScholScan は、人間の研究者のように論文全体を読み、照合することをモデルに求める「スキャン志向型」のタスク設定を導入し、文書を走査して一貫性の問題を特定します。ベンチマークは、13の自然科学領域にまたがる715本の論文から、9つの誤りカテゴリに基づいて慎重に注釈付けされた1,800の質問で構成され、証拠の局在化および推論のトレースに関する詳細な注釈と、統一された評価プロトコルを提供します。私たちは、24種類の入力構成に対して15モデルを評価し、すべての誤りカテゴリにわたってMLLMの能力をきめ細かく分析しました。その結果、あらゆるケースで検索拡張生成（RAG）手法は有意な改善をもたらさず、スキャン志向型タスクに対する現在のMLLMの体系的な欠陥が明らかになり、ScholScan が突きつける課題の大きさが裏付けられました。私たちは、ScholScan がスキャン志向型タスクパラダイムを代表し、先導する主要な研究になることを期待しています。