AndurilのLattice OSというコンセプトには、ずっと惹かれてきました。安価な異種センサー群をエッジで統合し、単一のAI駆動による状況認識の絵としてまとめ上げる、そんなネットワークです。興味深いのは、そうしたことのどれくらいが、実際に現時点で非機密のハードウェアで達成可能なのかという点です。
答え、少なくとも小規模なら:驚くほど多くのことが可能です。
私は同じアイデアのコミュニティ向けリファレンス実装としてOVERWATCHを構築しました。複数のカメラ(IPカメラ+ブラウザ経由のスマホ)が、すべて共通の知覚パイプラインに投入されます。$500のJetson Orin Nano上で動作。検出にはYOLOv8n TensorRT FP16、追跡には適応的なKalman、そして統合されたワールドモデルの予測のために、自己キャリブレーションするカメラ間の射影変換(ホモグラフィ)を使用しています。
私が最も驚いたのは、自己キャリブレーションです。システムにカメラの配置情報は何も教えません。2台のカメラが同時に同じ人物を捉える瞬間を監視し、フットポイント(足元点)の対応ペアを記録して、RANSACによってカメラ座標系間の射影変換をシステム自身が自動的に計算します。共視認がおよそ5秒続くと、使えるホモグラフィが得られます。カメラが動いても自己修復します。
2020年なら、これには専用ハードウェアが必要で、キャリブレーションに数週間を要し、そして意味のある計算予算も必要だったでしょう。2025年なら、開発キットで動きます。
Repo: github.com/mandarwagh9/overwatch
それから、5年前に「エンタープライズ専用」だった他の能力は、今どれがコモディティ化されていますか?人々は今、エッジAIの天井をどこに見ているのでしょう。
[link] [comments]




