FingerViP：指先の視覚知覚で実世界の器用なハンド操作を学習する

arXiv cs.RO / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

FingerViPは、単一の手首搭載視点に代えて、指先の視覚知覚（複数のミニカメラ）を用いて器用なマニピュレーションを学習する新しいシステムです。
指ごとに埋め込み型のミニカメラを搭載した「視覚強化フィンガーモジュール」を追加し、手と周囲環境を多視点でフィードバックすることで、遮蔽による性能低下を抑えます。
第三視点カメラと多視点の指先視覚を条件にした拡散（diffusion）ベースの全身ビジュオモータポリシーを学習し、人のデモンストレーションから複雑な技能を直接獲得します。
視覚特徴と身体感覚（プロプリオセプション）および接触認識の整合を高めるため、指先の視覚入力にカメラ姿勢エンコーディングと各指の関節の現在値エンコーディングを付加します。
困難な実環境タスクで頑健性と適応性を検証し、80.8%の総成功率を達成しています（箱の中のボタン押し、倒れやすい支持体からの棒の回収、遮蔽カーテンの背後からの物体回収、長時間のキャビネット開閉など）。また、ハードウェア設計とコードは完全にオープンソース化される予定です。

要旨: 狡猾な（dexterous）操作に関する現在の実践は一般に、単一の手首に取り付けた視点に依存しており、しばしば遮蔽されてしまい、複数視点の知覚を必要とするタスクでの性能を制限しています。本研究では、指先の視覚知覚を用いるビジュオモータ（visuomotor）方策によって巧緻操作を行う学習システム「FingerViP」を提案します。具体的には、埋め込み型のミニチュアカメラを備えた、視覚強化型の指先モジュールを設計し、多指ハンドの各指にそれらのモジュールを取り付けます。指先カメラは、手およびその周囲環境の包括的な多視点フィードバックを提供することで、視覚知覚を大幅に改善します。統合された指先モジュールに基づき、第三視点カメラと多視点指先ビジョンに条件付けされた拡散（diffusion）ベースの全身ビジュオモータ方策を開発し、人間のデモンストレーションから複雑な操作スキルを直接学習できるようにします。視点と固有感覚（proprioception）の整合、ならびに接触意識を改善するために、各指先の視覚特徴に、その対応するカメラ姿勢のエンコーディングと、指ごとの関節現在状態（joint-current）のエンコーディングを付加します。多視点指先ビジョンの有効性を検証し、FingerViPの頑健性と適応性を、限られた箱の中でボタンを押すこと、不安定な支持体から棒を取り出すこと、遮蔽カーテンの背後にある物体を回収すること、長いホライズンのキャビネット開閉と物体回収を行うことなど、さまざまな難しい実世界タスクで実証します。総合成功率は80.8%です。すべてのハードウェア設計とコードは完全にオープンソース化します。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

Qwen3.6 35B-A3Bはllama.cppとVulkanで780M iGPU上でもかなり実用的

Reddit r/LocalLLaMA

FingerViP：指先の視覚知覚で実世界の器用なハンド操作を学習する

要点

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Qwen3.6 35B-A3Bはllama.cppとVulkanで780M iGPU上でもかなり実用的

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer