身体性(Embodied)計画に大規模言語モデルを用いると体系的な安全リスクが生じる
arXiv cs.RO / 2026/4/21
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、物理的・規範的な危険を含む12,279のロボット計画タスクを、完全決定論的な検証で評価するベンチマーク「DESPITE」を提案している。
- 23の大規模言語モデルを対象とした結果では、有効な計画をほぼ常に生成できるモデルでも危険な計画を28.3%のタスクで作ってしまうなど、安全性と計画能力の不一致が明確になった。
- 3B〜671Bパラメータの18のオープンソースモデルでは、計画成功率はモデル規模とともに大きく伸びる(0.4–99.3%)一方で、安全意識は比較的横ばい(38–57%)である。
- 著者らは、計画能力と安全性の間に乗法的な関係があることを示し、大きいモデルが安全にタスクを完了する主因は危険回避の改善よりも「計画の上達」にあると結論づけている。
- さらに、推論型のプロプライエタリモデルは安全意識が高い(71–81%)が、最先端モデルで計画能力が頭打ちになるにつれ、ロボット向けLLMプランナーの導入における中心課題は安全意識の向上だと述べている。




