要旨: ナビゲーションに関連するタスクで高い成功率が得られていても、それが基盤モデルによる信頼性の高い意思決定につながるとは限りません。このギャップを検討するために、我々は、3つの状況にまたがる6つの診断タスクに対して、現在のモデルを評価します。すなわち、完全な空間情報の下での推論、不完全な空間情報の下での推論、そして安全に関わる情報の下での推論です。その結果、全体的な性能が強い場合であっても、重要な意思決定の失敗がなお残りうることが分かり、モデルの限界を理解し今後の進歩を導くためには、失敗に焦点を当てた分析が必要であることが示されました。未知のセルを含む経路計画の設定では、GPT-5は93%という高い成功率を達成しましたが、それでも残りのケースには不正な経路が含まれていました。また、新しいモデルが常に先行モデルよりも信頼性が高いとは限らないことも分かりました。安全に関わる情報の下での推論では、Gemini-2.5 Flashは困難な緊急避難タスクで67%しか達成できず、同じ条件で100%を達成したGemini-2.0 Flashを下回りました。すべての評価を通じて、モデルには構造的な崩壊、推論の幻覚、制約違反、そして危険な判断が見られました。これらの知見は、基盤モデルがナビゲーションに関連する意思決定において依然として重大な失敗を示すこと、そして信頼できるようになる前にきめ細かな評価が必要であることを示しています。プロジェクトページ: https://cmubig.github.io/before-we-trust-them/
彼らを信じる前に:基盤モデルのナビゲーションにおける意思決定の失敗
arXiv cs.RO / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ナビゲーションのような課題におけるベンチマークでの高い成功率が、基盤モデルの信頼できない意思決定を見えにくくする可能性があると論じ、集計された精度に頼るのではなく、失敗に焦点を当てた評価の必要性を動機づけている。
- 空間情報の完全/不完全、および安全に関わる情報の有無という条件の下で、6つの診断的なナビゲーション推論タスクにわたり、複数の現在の基盤モデルを評価し、その結果として、全体的な性能が良好であっても主要な意思決定の失敗が持続することを示している。
- 未知のセルがある経路計画のシナリオでは、GPT-5の報告された93%の成功率にも無効な経路が含まれており、残存する誤りが些細なものではなく安全上重要になり得ることを例示している。
- 新しいモデルが必ずしも信頼性が高いわけではないことも明らかになっており、Gemini-2.5 Flashは緊急避難タスクで67%のスコアであった一方、同じ条件下でGemini-2.0 Flashは100%に到達している。
- 評価全体を通じて、モデルには、構造の崩壊、幻覚的な推論、制約違反、危険な意思決定といった再発する失敗モードが見られ、きめ細かなテストなしにはこれらのシステムをナビゲーションに使用して信頼できないことが示唆される。