MARINER:開放水域環境におけるきめ細かな知覚と複雑な推論のための3E駆動ベンチマーク
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MARINERは、現実世界の開放水域の海事シーンにおいて、きめ細かな視覚知覚と複雑な推論を対象とした、新たに提案される3E(Entity-Environment-Event)パラダイムのベンチマークである。
- データセットには、16,629の複数ソースによる海事画像、63の船舶カテゴリ、不利な環境条件、そして5種類の動的な海上インシデントタイプが含まれており、きめ細かな分類、物体検出、視覚質問応答にまたがる。
- 主流のマルチモーダル大規模言語モデル(MLLMs)および提供されたベースラインでの評価では、現在のシステムは複雑な海洋文脈におけるきめ細かな識別や因果推論に依然として苦戦していることが示されている。
- 著者らは、MARINERを、認知レベルの海事マルチモーダル理解をより適切に測定するための専用かつ現実的なベンチマークとして位置づけ、開放水域アプリケーション向けのより頑健な視覚-言語モデルに関する研究を促進することを目指している。
