視覚障害および低視力の人々のナビゲーション支援における VLM の活用可能性を探る

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、視覚言語モデル(VLM)の潜在能力を、視覚障害および低視力を有する人々(pBLV)をナビゲーションで支援する用途に対して検討し、GPT-4V、GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnet、Llava-v1.6-mistral、Llava-onevision-qwen などのクローズドソースおよびオープンソースのモデルを評価した。
  • GPT-4o は、タスク全般において他のモデルを一貫して上回り、特に空間推論と場面理解において卓越している一方で、オープンソースのモデルは微妙な推論能力や複雑な環境への適応性に限界を示している。
  • 指摘された共通の課題には、混雑した環境での物体の数を把握する難しさ、空間推論の偏り、空間的フィードバックよりも物体の細部を強調する傾向が含まれ、pBLV のナビゲーションの使いやすさを低下させている。
  • 本研究は、VLM が人間のフィードバックとより良い空間推論に整合した場合、ウェイファインディングにおいて依然として有望な可能性を持つことを示しており、補助技術への統合に向けた実用的な示唆を提案している。
  • 結果は現在の VLM の強みと限界に関する指針を提供し、実世界の pBLV ナビゲーションアプリケーションでの使いやすさを高める方向性を概説している。

要旨:この論文は、視覚と言語のモデル(VLMs)が視覚障害および低視力(pBLV)を持つ人々のナビゲーションタスクを支援する可能性を調査します。最先端のクローズドソースモデルを含む評価を行い、GPT-4V、GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnet を含む一方、Llava-v1.6-mistral、Llava-onevision-qwen といったオープンソースモデルと併せて、基本的な視覚スキル、周囲の障害物を数えること、相対的な空間推論、常識的な道案内に関する場面理解の能力を分析します。さらに、pBLV特有のプロンプトを用いて現実世界の支援タスクを模擬する形で、ナビゲーション状況での性能も評価します。我々の知見は、これらのモデル間に顕著な性能差を示しています。GPT-4o はすべてのタスクで一貫して他を上回り、特に空間推論と場面理解において優れています。これに対し、オープンソースモデルはニュアンスのある推論や複雑な環境への適応性に苦戦します。共通の課題には、乱雑な設定で物体を正確に数えることの難しさ、空間推論の偏り、空間フィードバックよりも物体の細部を優先する傾向があり、pBLVのナビゲーションタスクでの実用性を制限します。これらの限界にもかかわらず、VLMは人間のフィードバックとより良く整合し、空間推論を向上させる装備が整えば、道案内支援の可能性を示します。本研究は、現行のVLMの強みと限界に関する実用的な知見を提供し、開発者がVLMを補助技術へ効果的に統合し、使いやすさを高めるための重要な制約に対処する道筋を案内します。
返却形式: {"translated": "翻訳されたHTML"}