概要: 物理世界で計画を立て、行動し、創造できるAIシステムを構築するには、パターン認識だけでは足りません。
このようなシステムは、連続的な意思決定を導くために、物理プロセスを支配する因果機構と制約を理解している必要があります。
この能力は、観察、行動、および結果として生じる環境の変化を関連付ける、内部言語モデルに類似した内部表現に依存します。
しかし、多くの既存のベンチマークは、視覚知覚とプログラム的推論を別個の問題として扱い、視覚認識または象徴的タスクのいずれかの焦点を当てています。
折り紙の領域は、これらのモダリティを統合する自然なテストベッドを提供します。
折り畳み操作によって形状を構築するには、視覚知覚、幾何学的・物理的制約の推論、そして連続的な計画が必要であり、同時に体系的評価のために十分に構造化されたままです。
OrigamiBench を導入します。モデルが反復的に折りを提案し、物理的妥当性とターゲット構成への類似性についてフィードバックを受けるインタラクティブなベンチマークです。
最新のビジョン-言語モデルを用いた実験は、モデルサイズの拡大だけでは物理的変換に関する因果推論を確実に生み出すことはできないことを示しています。
モデルは一貫した複数ステップの折り畳み戦略を生成できず、視覚的表現と言語表現がまだ弱く統合されていることを示唆しています。
OrigamiBench: 平面折り畳み可能な折り紙を合成するためのインタラクティブ環境
arXiv cs.LG / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- OrigamiBench は、折り紙の折りたたみ課題を通じて、視覚認識、幾何学的/物理的推論、そして逐次的計画を組み合わせたインタラクティブなベンチマークとして紹介される。
- このベンチマークは、モデルが反復的に折り畳みを提案し、物理的妥当性とターゲット構成との類似性に関するフィードバックを受けることを可能にする。
- 現代の視覚言語モデルを用いた実験は、単にモデルのサイズを拡大するだけでは、物理的変換に関する信頼できる因果推論を得ることはできないことを示している。
- この研究は、現在の視覚表現と語学表現は十分に統合されていないことを強調しており、物理世界での計画のためには、より良いマルチモーダル・グラウンディングが必要であることを示唆している。