ThinkGrasp：散らかった環境における戦略的な部品把持のための視覚言語システム

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ThinkGraspは、遮蔽によって対象物の認識が困難なほど高度に散らかったシーンを扱うための、プラグアンドプレイ型の視覚言語ロボティック把持システムです。
この手法では、GPT-4oの文脈に基づく推論を活用して、部分的に隠れている、あるいはほとんど見えない物体であっても、対象の特定と把持姿勢の生成を行います。
目標指向の言語指示を用いて、妨げとなる物体を段階的に取り除き、対象を露出させて把持を数ステップで完了させます。
シミュレーションおよび実環境の両方での実験により、高い成功率と、特に重度の散らかりや、多様で未見の物体において、最先端手法に対する明確な改善が示されています。
結果は、評価時に観測された特定の物体や環境を超えても強い汎化性能を持つことを示しています。

Abstract

散らかった環境におけるロボット把持は、遮蔽や複雑な物体配置のために依然として大きな課題です。私たちは、GPT-4oの高度な文脈推論を活用し、重度の雑然環境での把持戦略に対応するプラグアンドプレイの視覚言語把持システム「ThinkGrasp」を開発しました。ThinkGraspは、目標指向の言語を用いて遮蔽物となる物体の除去を導くことで、目標物体が大きく遮られていたり、ほとんど見えない場合でも、目標物体を効果的に特定し、把持姿勢を生成できます。この手法は段階的に目標物体を露出させ、最終的に数ステップで高い成功率で把持します。シミュレーション実験と実機実験の両方で、ThinkGraspは高い成功率を達成し、重度に雑然とした環境や、多様で未見の物体がある状況において、最先端手法を大幅に上回り、強力な汎化能力を示しました。