広告

LLMが導くオントロジーと類似性に基づく計画により実現する、汎用的なタスク指向の対象物把持

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の視覚言語モデル手法が抱える課題、すなわち部品認識と把持推論の不安定さにより、多様な対象物およびタスク間での汎用性が十分に得られない点を改善し、タスク指向の対象物把持(TOG)に取り組む。
  • 人間の直感的な命令を、視覚認識によるセマンティック手がかりに依存せずに機能的な対象物部品選択へと写像する、LLMによって構築された対象物・部品・タスクのオントロジーを提案する。
  • 部品の同定には、観測されたポイントクラウドに対してサンプリングベースの幾何学的解析を行い、複数のポイント分布および距離メトリクスを用いることで、視点依存性を低減する。
  • 未知の対象に対しては、あらかじめセグメント化され既知の参照対象物からの把持を模倣するために、類似性に基づくマッチングを適用する。これにより、新しい対象物についての明示的な事前知識なしに計画の指針を与えられる。
  • 実環境での実験により、部品選択・同定・把持生成の精度が確認され、既存のオントロジー知識を拡張することで、新規カテゴリーの対象物に対しても汎用化できることが示される。

広告