FalconApp:自動ラベル付き合成データによるエンドツーエンド知覚のiPhone高速デプロイ

arXiv cs.RO / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文では、短い手持ち動画から、マスク検出と6自由度(6-DoF)姿勢推定を行うエンドツーエンドの知覚モジュールを作るiPhoneアプリ「FalconApp」を提案しています。
  • フォトリアルな自動ラベリングと迅速なモバイルデプロイの仕組みとして、GSplatアセットを再構成し、多様な背景に合成し、グラウンドトゥルースのマスクと姿勢を付けた合成学習画像を生成して学習し、学習済みモデルをiPhoneフロントエンドへ再投入します。
  • 5種類の剛体オブジェクトでの実験では、オブジェクトあたり合成データ生成と学習に平均約20分かかることが示されています。
  • iPhone上でのエンドツーエンド推論レイテンシは約30msで、さらに姿勢精度は模擬環境・実環境の両方で5つ中4つのオブジェクトにおいてPnPベースラインより改善しています。