UMI-Underwater：水中遠隔操縦なしで水中操作を学習する

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

UMI-Underwaterシステムは、自律的な自己教師ありデータ収集と、水中での多様な実演（デモ）に対する必要性を低減する学習戦略を組み合わせることで、困難な水中ロボットによる把持（グラスピング）に取り組む。
オンランド（地上）での人による手持ちデモから得た把持の知識を、水中へと転移させる。これは、地上から水中へのドメインギャップを埋め、照明や色の変化に対して頑健であり続けることを目的とした、深度ベースのアフォーダンス表現（可能性の手がかり表現）を用いて行う。
オンランドデータで学習したアフォーダンスモデルを、水中において訓練前に幾何学的整合（ジオメトリック・アラインメント）を行うことでゼロショット的に投入し、その後、アフォーダンスに条件付けされた拡散（ディフュージョン）ベースの制御ポリシーを学習する。
プール実験により、把持性能と背景の変化に対する頑健性の向上が示される。さらに、RGBのみのベースラインと比べて、地上データでしか見たことのない対象物に対する汎化性能が良い。
本研究は、プロジェクトのWebサイトを通じてコード、動画、追加の結果を公開している。

要旨: 水中ロボットによる把持（グラスピング）は、劣化した高い可変性を持つ映像と、水中で多様なデモンストレーションを収集するコストのために困難です。私たちは、(i) 自己教師ありのデータ収集パイプラインを通じて自律的に成功した水中把持デモンストレーションを収集し、(ii) 深度ベースのアフォーダンス表現を用いて陸上の人手によるデモンストレーションから把持知識を水中へ転移することで、陸上から水中へのドメインギャップを埋め、照明や色の変化に対して頑健にするシステムを提案します。陸上の手持ちデモンストレーションで学習したアフォーダンスモデルは、幾何学的アラインメントにより水中でゼロショットに展開され、その後、アフォーダンスに条件付けされた拡散ポリシーを水中デモンストレーション上で学習し、制御アクションを生成します。プール実験では、提案手法は把持性能と、背景の変化に対する頑健性を向上させ、陸上データでのみ見られていた対象物に対しても一般化でき、RGBのみのベースラインを上回ります。コード、動画、追加の結果は https://umi-under-water.github.io で利用可能です。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

UMI-Underwater：水中遠隔操縦なしで水中操作を学習する

要点

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer