MARINER：開放水域環境におけるきめ細かな知覚と複雑な推論のための3E駆動ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MARINERは、現実世界の開放水域の海事シーンにおいて、きめ細かな視覚知覚と複雑な推論を対象とした、新たに提案される3E（Entity-Environment-Event）パラダイムのベンチマークである。
データセットには、16,629の複数ソースによる海事画像、63の船舶カテゴリ、不利な環境条件、そして5種類の動的な海上インシデントタイプが含まれており、きめ細かな分類、物体検出、視覚質問応答にまたがる。
主流のマルチモーダル大規模言語モデル（MLLMs）および提供されたベースラインでの評価では、現在のシステムは複雑な海洋文脈におけるきめ細かな識別や因果推論に依然として苦戦していることが示されている。
著者らは、MARINERを、認知レベルの海事マルチモーダル理解をより適切に測定するための専用かつ現実的なベンチマークとして位置づけ、開放水域アプリケーション向けのより頑健な視覚-言語モデルに関する研究を促進することを目指している。

Abstract

実世界の開放水域環境におけるきめ細かな視覚理解と高次推論は、専用ベンチマークの欠如により十分に探究されていません。私たちは、新しいEntity-Environment-Event（3E）パラダイムのもとで構築した包括的なベンチマークであるMARINERを導入します。MARINERには、63のきめ細かな船舶カテゴリを含むマルチソースの海事画像16,629枚、さまざまな有害な環境、そして5つの典型的な動的な海事インシデントが含まれており、きめ細かな分類、物体検出、視覚質問応答のタスクをカバーします。私たちは主要なマルチモーダル大規模言語モデル（MLLM）に対して大規模な評価を行い、ベースラインを確立しました。その結果、先進的なモデルでさえ、複雑な海洋シーンにおけるきめ細かな識別と因果推論に苦戦していることが明らかになりました。海事専用ベンチマークであるMARINERは、海事マルチモーダル理解における現実的かつ認知レベルでの評価というギャップを埋め、開放水域向けアプリケーションのための頑健な視覚言語モデルに関する今後の研究を促進します。付録および補足資料は https://lxixim.github.io/MARINER で利用可能です。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

MARINER：開放水域環境におけるきめ細かな知覚と複雑な推論のための3E駆動ベンチマーク

要点

Abstract

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず