MARINER:開放水域環境におけるきめ細かな知覚と複雑な推論のための3E駆動ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • MARINERは、現実世界の開放水域の海事シーンにおいて、きめ細かな視覚知覚と複雑な推論を対象とした、新たに提案される3E(Entity-Environment-Event)パラダイムのベンチマークである。
  • データセットには、16,629の複数ソースによる海事画像、63の船舶カテゴリ、不利な環境条件、そして5種類の動的な海上インシデントタイプが含まれており、きめ細かな分類、物体検出、視覚質問応答にまたがる。
  • 主流のマルチモーダル大規模言語モデル(MLLMs)および提供されたベースラインでの評価では、現在のシステムは複雑な海洋文脈におけるきめ細かな識別や因果推論に依然として苦戦していることが示されている。
  • 著者らは、MARINERを、認知レベルの海事マルチモーダル理解をより適切に測定するための専用かつ現実的なベンチマークとして位置づけ、開放水域アプリケーション向けのより頑健な視覚-言語モデルに関する研究を促進することを目指している。

Abstract

実世界の開放水域環境におけるきめ細かな視覚理解と高次推論は、専用ベンチマークの欠如により十分に探究されていません。私たちは、新しいEntity-Environment-Event(3E)パラダイムのもとで構築した包括的なベンチマークであるMARINERを導入します。MARINERには、63のきめ細かな船舶カテゴリを含むマルチソースの海事画像16,629枚、さまざまな有害な環境、そして5つの典型的な動的な海事インシデントが含まれており、きめ細かな分類、物体検出、視覚質問応答のタスクをカバーします。私たちは主要なマルチモーダル大規模言語モデル(MLLM)に対して大規模な評価を行い、ベースラインを確立しました。その結果、先進的なモデルでさえ、複雑な海洋シーンにおけるきめ細かな識別と因果推論に苦戦していることが明らかになりました。海事専用ベンチマークであるMARINERは、海事マルチモーダル理解における現実的かつ認知レベルでの評価というギャップを埋め、開放水域向けアプリケーションのための頑健な視覚言語モデルに関する今後の研究を促進します。付録および補足資料は https://lxixim.github.io/MARINER で利用可能です。