要旨: 駐車場を探すことはフードデリバリー時間の不釣り合いな割合を占めますが、商店の入口に対する正確な駐車スペース選択を扱うシステムは存在しません。私たちは ParkSense を提案します。これは、低リスクの自動運転(AV)状態における待機中の計算資源を再利用し、信号待ち(赤信号)、交通渋滞、駐車場内の巡回といった状況で生じるアイドル計算を活用して、事前にキャッシュされた衛星画像およびストリートビュー画像に対して Vision-Language Model(VLM)を実行し、入口と合法な駐車ゾーンを特定する枠組みです。私たちは Delivery-Aware Precision Parking(DAPP)問題を定式化し、量子化した 7B VLM が HW4 クラスのハードウェア上で 4〜8 秒で推論を完了できることを示し、米国における運転手あたりの年間の収入増加を 3,000〜8,000 USD と見積もります。自動運転、コンピュータビジョン、ラストマイル物流が交わる、未踏の領域として、5つのオープンな研究方向性を特定します。
ParkSense:配達ドライバーはどこに駐車すべきか?アイドル状態のAV計算資源と視覚言語モデルを活用する
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低リスクなAV状態で生じるアイドル計算資源を利用して視覚言語モデルを実行し、商店の入口付近での正確な配達用駐車スペース選定を行う枠組みParkSenseを提案する。
- ParkSenseは、あらかじめキャッシュされた衛星画像およびストリートビュー画像を転用して、入口と合法な駐車ゾーンを特定し、配達を意識した高精度駐車(Delivery-Aware Precision Parking:DAPP)問題を形式化する。
- 著者らは、量子化した7BのVLMがHW4クラスのハードウェア上で約4〜8秒の推論を実現できると報告しており、ほぼリアルタイムの意思決定ニーズを支える。
- 米国における潜在的な運転者あたりの年間の収入増加を概ね3,000〜8,000ドルと見積もり、駐車場を探すために失われる時間を削減できると主張する。
- 本研究は、自動運転、コンピュータビジョン、ラストマイル物流をつなぐ5つのオープンな研究課題を示す。


