私は人型ロボット用の完全なビジョンシステムを構築した

Reddit r/artificial / 2026/4/1

💬 オピニオンSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

著者は、人型ロボット向けのオープンソースのビジョンシステムを公開しました。このシステムは、NVIDIA Jetson Orin Nano上でローカルに動作し、ROS2との統合にも対応しています。
本システムにより、物体までの距離推定、人の位置検出、「手を振る」といったジェスチャーの認識、さらにオープンパームの「持ち主」合図に基づく人物追従を含む、リアルタイムなシーン理解が可能になります。
YOLO11nによる物体検出、MiDaSによる距離（深度）推定、MediaPipeによる顔検出・手のジェスチャー・ポーズ推定に加え、トラッキングなど、複数のコンピュータビジョン要素を組み合わせています。
性能はデフォルトで10〜15 FPS、INT8最適化により30〜40 FPSまで向上すると報告されており、約30 FPSのリアルタイム動作を目標としています。
このプロジェクトは「エッジ優先」「プライバシー優先」という思想（データがデバイス外に出ない）を重視し、クイックスタート手順と、コミュニティのフィードバック用のGitHubリポジトリを提供しています。

私は、人型ロボットのために作ってきたオープンソースのビジョンシステムにとてもわくわくしています。これは、NVIDIA Jetson Orin Nano 上で完全に動作し、ROS2 を完全に統合しています。

課題

毎日、何百万ものロボットが人間を助けるために配備されています。けれども、そのほとんどは目が見えません。あるいは、失敗するクラウドサービスに依存しています。あるいは、とても高額で大企業しか導入できないからです。

私はそれを変えたかったのです。

OpenEyes でできること

ロボットは部屋を見て、次のことを理解します：

- 「テーブルの上にコップがある。40cm 先」

- 「人が、私の左に立っている」

- 「私に向かって手を振っている――それは挨拶だ」

- 「その人は座っている――助けが必要かもしれない」

- オブジェクト検出（YOLO11n）

- 距離推定（MiDaS）

- 顔検出（MediaPipe）

- ジェスチャー認識（MediaPipe Hands）

- 姿勢推定（MediaPipe Pose）

- オブジェクト追跡

- 人の追従（オープンパームを見せて“所有者”になる）

性能

- すべてのモデル：10〜15 FPS

- 最小：25〜30 FPS

- 最適化（INT8）：30〜40 FPS

理念

- エッジ優先――ロボット上で全ての処理

- プライバシー優先――データはデバイスから出ない

- リアルタイム――30 FPS を目標

- オープン――コミュニティによって作られ、コミュニティのために

クイックスタート

git clone https://github.com/mandarwagh9/openeyes.git

cd openeyes

pip install -r requirements.txt

python src/main.py --debug

python src/main.py --follow（人の追従！）

python src/main.py --ros2（ROS2 統合）

これまでの道のり

最初はシンプルな疑問から始めました。なぜロボットは、私たちのように見られないのでしょうか？

数か月にわたって、次のような問題を修正しながら反復してきました：

- 高解像度での MediaPipe 検出

- bbox の高さの比率を使った人の追従

- ジェスチャーによる所有者選択

ぜひコミュニティからのフィードバックをいただけたら嬉しいです！

GitHub: github.com/mandarwagh9/openeyes

submitted by /u/Straight_Stable_6095
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

Dev.to

人間っぽく聞こえる「AIライティング」プロンプト5選（ありきたりな他のAI記事みたいにならない）

Dev.to

2030年までに、1兆個のパラメータを持つLLMの推論コストが90％以上削減される、ガートナーが予想

Publickey

私は人型ロボット用の完全なビジョンシステムを構築した

要点

関連記事

Black Hat USA

Black Hat Asia

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

人間っぽく聞こえる「AIライティング」プロンプト5選（ありきたりな他のAI記事みたいにならない）

2030年までに、1兆個のパラメータを持つLLMの推論コストが90％以上削減される、ガートナーが予想

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer