ENC-Bench：電子航法チャート理解におけるマルチモーダル大規模言語モデルを評価するためのベンチマーク

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、専門的な電子航法チャート（ENC）理解のためにマルチモーダル大規模言語モデル（MLLM）を評価することを目的に設計された、初のベンチマーク「ENC-Bench」を導入する。
ENC-Benchには、840件の実在するNOAA ENCから抽出した、専門家による検証済みの20,490サンプルが含まれており、評価レベルは「知覚」「空間推論」「海上の意思決定」の3段階で構成される。
データセットは、校正済みのベクター画像変換パイプラインを用いて、生のS-57ベクターデータから生成される。自動整合性チェックと専門家によるレビューを組み合わせ、正確性と信頼性を担保する。
10の最先端MLLM（例：GPT-4o、Gemini 2.5、Qwen3-VL）に対する実験では、統一されたゼロショット設定を用いる。その結果、最上位モデルの精度は47.88%にとどまり、記号的基盤付け、空間計算、多制約推論、頑健性におけるギャップが浮き彫りになった。
著者らはENC-Benchを、安全性が極めて重要なAIシステムを発展させるための基盤インフラとして位置付けている。そこでは、専門的な海事知識と、記号および空間推論能力を組み合わせる。

概要: 電子海図（ENCs）は、現代の海上航行における安全性を左右する中核（安全に直結する基盤）ですが、多モーダル大規模言語モデル（MLLMs）がそれらを確実に解釈できるかどうかは、いまだ明らかではありません。自然画像や従来型の地図とは異なり、ENCは標準化されたベクター記号、スケール依存の描画、そして正確な幾何学的構造によって、規則、水深、航路制約を符号化しています——解釈には専門的な海事知識が必要です。私たちは、プロのENC理解に特化した初めてのベンチマークであるENC-Benchを提案します。ENC-Benchには、米国海洋大気庁（NOAA）の真正のENC（840件）から作成された、専門家による検証済みの20,490サンプルが含まれており、3段階の階層に整理されています。すなわち、知覚（記号・特徴の認識）、空間推論（座標の特定、方位、距離）、および海事における意思決定（航路の合法性、安全性評価、複数の制約下での緊急時計画）です。すべてのサンプルは、生のS-57データから、校正済みのベクターから画像へのパイプラインによって生成され、自動の整合性チェックと専門家レビューを経ています。GPT-4o、Gemini 2.5、Qwen3-VL、InternVL-3、GLM-4.5Vなどの10の最先端MLLMについて、統一されたゼロショット手順のもとで評価します。最良のモデルでも精度は47.88%にとどまり、記号の接地（symbolic grounding）、空間計算、複数制約に基づく推論、さらに照明条件やスケールの変動に対する頑健性において体系的な課題が見られます。最初の厳密なENCベンチマークを確立することで、専門的な記号推論と安全性に直結するAIの交差点における新たな研究フロンティアを切り開き、MLLMをプロの海事アプリケーションへと前進させるための重要な基盤を提供します。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

ENC-Bench：電子航法チャート理解におけるマルチモーダル大規模言語モデルを評価するためのベンチマーク

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer