概要: 電子海図(ENCs)は、現代の海上航行における安全性を左右する中核(安全に直結する基盤)ですが、多モーダル大規模言語モデル(MLLMs)がそれらを確実に解釈できるかどうかは、いまだ明らかではありません。自然画像や従来型の地図とは異なり、ENCは標準化されたベクター記号、スケール依存の描画、そして正確な幾何学的構造によって、規則、水深、航路制約を符号化しています——解釈には専門的な海事知識が必要です。私たちは、プロのENC理解に特化した初めてのベンチマークであるENC-Benchを提案します。ENC-Benchには、米国海洋大気庁(NOAA)の真正のENC(840件)から作成された、専門家による検証済みの20,490サンプルが含まれており、3段階の階層に整理されています。すなわち、知覚(記号・特徴の認識)、空間推論(座標の特定、方位、距離)、および海事における意思決定(航路の合法性、安全性評価、複数の制約下での緊急時計画)です。すべてのサンプルは、生のS-57データから、校正済みのベクターから画像へのパイプラインによって生成され、自動の整合性チェックと専門家レビューを経ています。GPT-4o、Gemini 2.5、Qwen3-VL、InternVL-3、GLM-4.5Vなどの10の最先端MLLMについて、統一されたゼロショット手順のもとで評価します。最良のモデルでも精度は47.88%にとどまり、記号の接地(symbolic grounding)、空間計算、複数制約に基づく推論、さらに照明条件やスケールの変動に対する頑健性において体系的な課題が見られます。最初の厳密なENCベンチマークを確立することで、専門的な記号推論と安全性に直結するAIの交差点における新たな研究フロンティアを切り開き、MLLMをプロの海事アプリケーションへと前進させるための重要な基盤を提供します。
ENC-Bench:電子航法チャート理解におけるマルチモーダル大規模言語モデルを評価するためのベンチマーク
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、専門的な電子航法チャート(ENC)理解のためにマルチモーダル大規模言語モデル(MLLM)を評価することを目的に設計された、初のベンチマーク「ENC-Bench」を導入する。
- ENC-Benchには、840件の実在するNOAA ENCから抽出した、専門家による検証済みの20,490サンプルが含まれており、評価レベルは「知覚」「空間推論」「海上の意思決定」の3段階で構成される。
- データセットは、校正済みのベクター画像変換パイプラインを用いて、生のS-57ベクターデータから生成される。自動整合性チェックと専門家によるレビューを組み合わせ、正確性と信頼性を担保する。
- 10の最先端MLLM(例:GPT-4o、Gemini 2.5、Qwen3-VL)に対する実験では、統一されたゼロショット設定を用いる。その結果、最上位モデルの精度は47.88%にとどまり、記号的基盤付け、空間計算、多制約推論、頑健性におけるギャップが浮き彫りになった。
- 著者らはENC-Benchを、安全性が極めて重要なAIシステムを発展させるための基盤インフラとして位置付けている。そこでは、専門的な海事知識と、記号および空間推論能力を組み合わせる。
