私は、人型ロボットのために作ってきたオープンソースのビジョンシステムにとてもわくわくしています。これは、NVIDIA Jetson Orin Nano 上で完全に動作し、ROS2 を完全に統合しています。
課題
毎日、何百万ものロボットが人間を助けるために配備されています。けれども、そのほとんどは目が見えません。あるいは、失敗するクラウドサービスに依存しています。あるいは、とても高額で大企業しか導入できないからです。
私はそれを変えたかったのです。
OpenEyes でできること
ロボットは部屋を見て、次のことを理解します:
- 「テーブルの上にコップがある。40cm 先」
- 「人が、私の左に立っている」
- 「私に向かって手を振っている――それは挨拶だ」
- 「その人は座っている――助けが必要かもしれない」
- オブジェクト検出(YOLO11n)
- 距離推定(MiDaS)
- 顔検出(MediaPipe)
- ジェスチャー認識(MediaPipe Hands)
- 姿勢推定(MediaPipe Pose)
- オブジェクト追跡
- 人の追従(オープンパームを見せて“所有者”になる)
性能
- すべてのモデル:10〜15 FPS
- 最小:25〜30 FPS
- 最適化(INT8):30〜40 FPS
理念
- エッジ優先――ロボット上で全ての処理
- プライバシー優先――データはデバイスから出ない
- リアルタイム――30 FPS を目標
- オープン――コミュニティによって作られ、コミュニティのために
クイックスタート
git clone https://github.com/mandarwagh9/openeyes.git
cd openeyes
pip install -r requirements.txt
python src/main.py --debug
python src/main.py --follow(人の追従!)
python src/main.py --ros2(ROS2 統合)
これまでの道のり
最初はシンプルな疑問から始めました。なぜロボットは、私たちのように見られないのでしょうか?
数か月にわたって、次のような問題を修正しながら反復してきました:
- 高解像度での MediaPipe 検出
- bbox の高さの比率を使った人の追従
- ジェスチャーによる所有者選択
ぜひコミュニティからのフィードバックをいただけたら嬉しいです!
GitHub: github.com/mandarwagh9/openeyes
[リンク] [コメント]




