強化セマンティック・イベント・チェーンによるニューロシンボリック操作理解

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化セマンティック・イベント・チェーン（eSEC）をイベント単位の明示的な記号状態へ変換することで、ロボティクスの操作理解を支えるニューロシンボリック枠組み「eSEC-LAM」を提案する。
古典的eSECに対して、信頼度に基づく述語、機能的な物体役割、アフォーダンスの事前知識、プリミティブ階層化、サリエンシに導かれた説明手がかりを追加し、不確実性を考慮した推論を可能にする。
仕組みとしては、基盤モデルによる知覚フロントエンドから決定論的な述語抽出を行い、その後はプリミティブの事前・事後条件に基づく軽量な記号推論で、現在の行動推定と次のプリミティブ予測を実施する。
EPIC-KITCHENS-100、EPIC-KITCHENS VISOR、Assembly101での実験では、行動認識で競争力のある性能を示しつつ、次のプリミティブ予測が大きく改善され、知覚劣化下でも堅牢性が向上し、明示的な関係証拠に基づく時間的に一貫した説明トレースが得られた。

Abstract

人間の環境で動作するロボットシステムは、物体同士の相互作用が時間とともにどのように変化していくのか、現在どのような行動が実行されているのか、そしてその後に続く可能性が高い操作ステップは何かを推論する必要がある。古典的な拡張セマンティック・イベント・チェーン（eSECs）は、操作を解釈可能な関係として記述することを可能にするが、主として記述的であり、不確実性を考慮した意思決定を直接には支援しない。本論文では、eSECsを操作理解のための明示的なイベント単位の記号状態へと変換するニューラルシンボリック枠組みであるeSEC-LAMを提案する。提案手法は、古典的なeSECsを、確信度に応じた述語、機能的な物体ロール、アフォーダンスの事前分布、プリミティブレベルの抽象化、重要度に基づく説明の手がかりで拡張する。これらの強化された記号状態は、基盤モデルに基づく知覚フロントエンドから、決定論的な述語抽出によって導出される。一方で、現在の行動の推論と次のプリミティブの予測は、プリミティブの事前・事後条件に対する軽量な記号推論によって実行する。提案枠組みをEPIC-KITCHENS-100、EPIC-KITCHENS VISOR、およびAssembly101で評価し、行動認識、次のプリミティブ予測、知覚ノイズに対する頑健性、そして説明の一貫性を検証する。実験結果は、eSEC-LAMが競争力のある行動認識を達成し、次のプリミティブ予測を大幅に改善し、劣化した知覚条件下でも古典的な記号ベースラインおよびエンドツーエンドの動画ベースラインの両方よりも頑健であり、明示的な関係的根拠に基づく時間的に一貫した説明トレースを提供することを示す。これらの知見は、強化されたセマンティック・イベント・チェーンが、操作の解釈可能な記述であるだけでなく、ニューラルシンボリックな行動推論のための有効な内部状態としても機能し得ることを示している。