広告

私は人型ロボット用の完全なビジョンシステムを構築した

Reddit r/artificial / 2026/4/1

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、人型ロボット向けのオープンソースのビジョンシステムを公開しました。このシステムは、NVIDIA Jetson Orin Nano上でローカルに動作し、ROS2との統合にも対応しています。
  • 本システムにより、物体までの距離推定、人の位置検出、「手を振る」といったジェスチャーの認識、さらにオープンパームの「持ち主」合図に基づく人物追従を含む、リアルタイムなシーン理解が可能になります。
  • YOLO11nによる物体検出、MiDaSによる距離(深度)推定、MediaPipeによる顔検出・手のジェスチャー・ポーズ推定に加え、トラッキングなど、複数のコンピュータビジョン要素を組み合わせています。
  • 性能はデフォルトで10〜15 FPS、INT8最適化により30〜40 FPSまで向上すると報告されており、約30 FPSのリアルタイム動作を目標としています。
  • このプロジェクトは「エッジ優先」「プライバシー優先」という思想(データがデバイス外に出ない)を重視し、クイックスタート手順と、コミュニティのフィードバック用のGitHubリポジトリを提供しています。

私は、人型ロボットのために作ってきたオープンソースのビジョンシステムにとてもわくわくしています。これは、NVIDIA Jetson Orin Nano 上で完全に動作し、ROS2 を完全に統合しています。

課題

毎日、何百万ものロボットが人間を助けるために配備されています。けれども、そのほとんどは目が見えません。あるいは、失敗するクラウドサービスに依存しています。あるいは、とても高額で大企業しか導入できないからです。

私はそれを変えたかったのです。

OpenEyes でできること

ロボットは部屋を見て、次のことを理解します:

- 「テーブルの上にコップがある。40cm 先」

- 「人が、私の左に立っている」

- 「私に向かって手を振っている――それは挨拶だ」

- 「その人は座っている――助けが必要かもしれない」

- オブジェクト検出(YOLO11n)

- 距離推定(MiDaS)

- 顔検出(MediaPipe)

- ジェスチャー認識(MediaPipe Hands)

- 姿勢推定(MediaPipe Pose)

- オブジェクト追跡

- 人の追従(オープンパームを見せて“所有者”になる)

性能

- すべてのモデル:10〜15 FPS

- 最小:25〜30 FPS

- 最適化(INT8):30〜40 FPS

理念

- エッジ優先――ロボット上で全ての処理

- プライバシー優先――データはデバイスから出ない

- リアルタイム――30 FPS を目標

- オープン――コミュニティによって作られ、コミュニティのために

クイックスタート

git clone https://github.com/mandarwagh9/openeyes.git

cd openeyes

pip install -r requirements.txt

python src/main.py --debug

python src/main.py --follow(人の追従!)

python src/main.py --ros2(ROS2 統合)

これまでの道のり

最初はシンプルな疑問から始めました。なぜロボットは、私たちのように見られないのでしょうか?

数か月にわたって、次のような問題を修正しながら反復してきました:

- 高解像度での MediaPipe 検出

- bbox の高さの比率を使った人の追従

- ジェスチャーによる所有者選択

ぜひコミュニティからのフィードバックをいただけたら嬉しいです!

GitHub: github.com/mandarwagh9/openeyes

submitted by /u/Straight_Stable_6095
[リンク] [コメント]

広告