PiCo:ロバストなロボット視覚異常検知のためのアクティブ・マニフォールド・カノニカライゼーション

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PiCo(Pose-in-Condition Canonicalization)は、多様な6自由度(6-DoF)姿勢、照明変化、物理的な攪乱下におけるロボット視覚異常検知を改善するために、アクティブ・カノニカライゼーションのパラダイムを導入する。
  • 本フレームワークは2段階のカスケード方式を採用する:まず、Active Physical Canonicalizationが対象物を再配向して幾何学的不確実性を低減し、次にNeural Latent Canonicalizationが、ノイズ階層(denoising hierarchy)によって、フォトメトリック(光学)・特徴(潜在)・セマンティクス/文脈(意味・文脈)といったレベルでの不要因子を除去する。
  • 大規模ベンチマークであるM2ADに関する実験では、PiCoは静的設定においてO-AUROC 93.7%を達成(従来手法に対して3.7%の向上)し、アクティブなクローズドループ状況では精度98.5%を示す。
  • これらの結果は、アクティブ・マニフォールド・カノニカライゼーションによって観測を条件不変なカノニカル・マニフォールドへ投影することが、ロバストな身体性知覚に重要であることを示唆している。

要旨: ロボットによる視覚異常検知(VAD)の産業導入は、多様な6自由度(6-DoF)の姿勢構成や、照明変化や影のような不安定な動作条件の下での受動的知覚によって、本質的に制約されています。このとき、固有の意味的な異常と物理的攪乱が共存し、相互に作用します。これらの制限を克服するために、受動的な特徴学習からActive Canonicalization(能動的正準化)へのパラダイム転換が提案されます。PiCo(Pose-in-Condition Canonicalization:条件内姿勢正準化)を、観測を条件不変な正準マニフォールドへ能動的に射影する統一フレームワークとして導入します。PiCoは、カスケード(段階的)なメカニズムにより動作します。第1段階のActive Physical Canonicalization(能動的物理正準化)は、ロボットのエージェントが物体を再配向させることで、幾何学的不確実性をその発生源から低減できるようにします。第2段階のNeural Latent Canonicalization(ニューラル潜在正準化)は、入力レベルでのフォトメトリック処理、特徴レベルでの潜在洗練、意味レベルでの文脈推論からなる3段階のデノイジング(ノイズ除去)階層を採用し、表象スケールをまたいで厄介な要因を段階的に除去していきます。大規模なM2ADベンチマークでの広範な評価により、このパラダイムの優位性が示されます。PiCoは、静的設定において従来手法に対して3.7%の改善に相当する最先端の93.7% O-AUROCを達成し、能動的なクローズドループ(閉ループ)シナリオでは98.5%の精度を得ます。これらの結果は、頑健な身体化知覚にとって能動的なマニフォールド正準化が重要であることを示しています。