THEMIS: 科学論文不正検出フォレンジックに向けたMLLMの全体的評価

arXiv cs.CV / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • THEMISは、科学論文不正検出フォレンジックに関連する視覚的推論タスクにおいてマルチモーダル大型言語モデル(MLLM)を評価するための新しいマルチタスクベンチマークである。
  • このベンチマークには、7つの実世界および合成のマルチモーダル・シナリオにまたがる4,000問以上の問題が含まれており、真正の取り下げ(撤回)論文事例に見られる複雑さを再現することを目指している。
  • 不正の扱いをより広範かつより細分化された形でカバーするために、5種類の不正タイプと16の詳細な操作(操作手段)を導入している。これらは、単一のサンプル内で積み重ねられていることが多い。
  • THEMISは、不正タイプに対応付けられた5つの主要な視覚的フロード推論能力の観点でモデルを評価し、能力ごとの長所と短所を診断できるようにする。
  • 16の主要なMLLMに対する結果では全体的な性能が低く(最良モデルGPT-5で56.15%)、本ベンチマークが不正推論に対して厳格で難易度の高いテストであることが示されている。

概要: 本稿では、実世界の学術シナリオにおける視覚的な不正(フロード)推論を、マルチモーダル大規模言語モデル(MLLM)に対して包括的に評価することを目的とした、新しいマルチタスク・ベンチマークであるTHEMISを提示します。既存のベンチマークと比較して、THEMISは3つの主要な進歩を導入します。(1)実世界シナリオと複雑性: 本ベンチマークは、取り下げられた論文の実データに由来する事例と、慎重にキュレーションされたマルチモーダルの合成データから作成され、7つのシナリオにまたがる4,000問以上で構成されています。複雑なテクスチャを含む画像が60.47%を占めるTHEMISは、既存ベンチマークと実世界の学術的不正の複雑さとの間にある重要なギャップを埋めます。(2)不正タイプの多様性と粒度: THEMISは5つの困難な不正タイプを体系的にカバーし、さらに16の細粒度の操作(マニピュレーション)を導入します。平均して各サンプルは複数のスタックされた操作を受けます。これらの操作の多様性と難しさは、モデルに高いレベルの視覚的な不正推論を要求します。(3)多次元能力評価: 我々は、不正タイプと5つの中核となる視覚的な不正推論能力との対応づけを構築し、これにより、これらの中核能力におけるさまざまなモデルの固有の強みと特定の弱みを明らかにする評価を可能にします。16の主要なMLLMに対する実験では、最も高い性能を示すモデルであるGPT-5でさえ全体の性能は56.15%にとどまり、本ベンチマークが厳格なテストであることを示しています。我々は、THEMISが、複雑で実世界に即した不正推論タスクに対するMLLMの発展を促進すると期待しています。