抄録: 言語に導かれた器用な把持(dexterous grasp)の生成には、モデルがタスクの意味論、3D幾何、そして複雑な手指と物体の相互作用を理解することが必要です。視覚言語モデルはこの問題に適用されてきましたが、既存の手法は観測から把持パラメータへ直接写像するだけであり、物理的相互作用についての中間的な推論を行いません。本研究では、多指操作のための接触に基づく身体化(embodied)推論を導入する DextER(DextER: Dexterous Grasp Generation with Embodied Reasoning)を提案します。私たちの重要な洞察は、「手のどのリンクが、物体表面のどこに接触するか」を予測することで、身体化に配慮した中間表現が得られ、タスクの意味論と物理的制約を結び付けられるという点です。DextER は、物体表面のどこにどの指リンクが接触するかを指定する身体化コンタクトトークンを自己回帰的に生成し、その後に手の構成を符号化する把持トークンを生成します。DexGYS において DextER は 67.14% の成功率を達成し、最先端手法を 3.83 p.p. 上回ります。また意図整合(intention alignment)では 96.4% の改善を示します。さらに、部分的な接触指定によって生成を操舵可能であることも実証し、把持合成に対するきめ細かな制御を可能にします。
DextER:言語に基づく巧緻な把持生成と身体性ある推論
arXiv cs.RO / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- DextERは、観測から把持パラメータへ直接対応するのではなく、接触に基づく身体性ある推論によって多指の手と物体の相互作用を明示的に考慮する、言語駆動の巧緻把持生成モデルである。
- 本手法は、中間表現として「どの指のリンクが物体表面のどこに接触するか」を予測し、接触トークン→把持トークンの順に自己回帰的に生成することで、タスク意味と物理制約の橋渡しを行う。
- DexGYSでの実験では、成功率67.14%を達成し、従来の最先端手法を3.83ポイント上回る性能が示された。
- さらにDextERは意図整合(intention alignment)も大幅に改善(96.4%改善)し、部分的な接触指定により生成を誘導できるため、把持合成を細かく制御できることを示している。




