Rule-VLN：意味推論と幾何学的整流で知覚とコンプライアンスをつなぐ

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Vision-and-Language Navigation（VLN）のための身体性AIが、単なる到達可能性から「社会的コンプライアンス」へと移行しており、物理的に行けるかだけでなく意味的な規制ルールにも従う必要があると主張します。
著者らは、新しい大規模都市ベンチマーク Rule-VLN を提案します。29kノードの環境に177の規制カテゴリーを8kの制約ノードへ投入し、4段階のカリキュラムで視覚・行動のきめ細かな適合を評価します。
エージェントの「ゴール駆動トラップ」（幾何学よりもルールを優先できず、微妙な規制制約を見落とす問題）を解消するために、Semantic Navigation Rectification Module（SNRM）を提案しています。
SNRM は、粗〜細の視覚知覚VLMと、動的な迂回計画のためのエピステミックなメンタルマップを組み合わせ、実験では CVR を 19.26% 低減し TC を 5.97% 向上させるなど、ナビゲーション能力を大きく回復させることを示します。
全体として、Rule-VLN は規則に準拠したナビゲーションのより強い評価基盤を提供し、SNRM は既存のVLNモデルに対してゼロショットで安全意識を高める実用的な手法を提示します。

Abstract

身体化されたAIが現実世界への導入へ移行するにつれ、Vision-and-Language Navigation（VLN）タスクの成功は、単なる到達可能性から社会的な順守へと変化していく傾向があります。しかし、現在のエージェントは「目標駆動の罠」に陥りがちで、意味論的な規則（「行ってよいですか？」）よりも物理的な幾何（「行けますか？」）を優先し、微妙な規制上の制約を見落とすことが頻繁にあります。このギャップを埋めるために、私たちはルール準拠ナビゲーションのための初の大規模都市ベンチマークである Rule-VLN を確立します。大規模な29kノード環境にまたがり、4つのカリキュラム・レベルにわたって8kの制約付きノードへ177種類の多様な規制カテゴリを投入し、きめ細かな視覚的および行動的制約によってエージェントに挑戦します。さらに、事前学習済みエージェントに安全性の認識を与えることを目的としたユニバーサルかつゼロショットのモジュールである Semantic Navigation Rectification Module（SNRM）を提案します。SNRMは、粗視的から微視的へと段階的に知覚するVLMの枠組みと、動的な迂回計画のための認識論的なメンタルマップを統合します。実験の結果、Rule-VLN が先端モデルに対して大きな課題をもたらす一方で、SNRMはナビゲーション能力を大幅に回復させ、CVRを19.26%低減し、TCを5.97%向上させることが示されました。