See&Say：ビジョン言語誘導による自律型パッケージ配送ドローンのための安全ゾーン検出

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、混雑した動的な都市／郊外環境において、自律型配送ドローンが安全なパッケージ投下ゾーンを検出するための、ビジョン言語誘導フレームワーク「See&Say」を提案する。
単眼の奥行き勾配から得られる幾何学ベースの安全手がかりと、オープンボキャブラリの検出マスクによるセマンティック知覚を融合し、安全マップを構築することで、幾何学のみ、またはセグメンテーションのみの手法よりも頑健な意思決定を実現する。
ビジョン言語モデル（VLM）は、物体カテゴリのプロンプトを時間とともに調整しながらハザード検出を反復的に洗練させ、重要な最終配送フェーズにおける推論を改善する。
See&Sayは、主要なパッドが占有されている、または安全でない場合に、同じ安全推論パイプラインを用いて代替の投下候補ゾーンを提案できる。
動く物体や人の活動を含む都市配送シナリオを対象に新たにキュレーションしたデータセットでの実験により、See&Sayは安全マップ予測においてベースラインより高い精度／IoUを達成し、さらに代替ゾーン選択でも改善が示される。