文脈を事前知識として:家庭の猫テストベッドによる非言語エージェントのためのベイズ的触発の意図推定

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、非言語エージェントに対して、ノイズのある不完全な行動観測と豊かな空間文脈を組み合わせて意図を推定する「CatSignal」を提案する。
  • 文脈を通常の入力特徴として扱うのではなく、文脈ゲート付きのProduct-of-Expertsにより、文脈・姿勢ダイナミクス・音響手がかりから事後分布に近い意図分布を計算する。
  • 家庭内の猫を対象にしたテストベッドは、言語で目標を伝えられない身体エージェントにおける意図推定のプローフ・オブ・コンセプトを示している。
  • マルチモーダルな家庭用猫データセットでのleave-one-video-out評価では、CatSignalは総合精度77.72%を達成し、特徴の連結(71.83%)や後期フュージョンのベースラインを上回る。
  • 精度向上に加えて、文脈を素朴に使った場合に起きやすい脆いショートカット予測(文脈ドリブンの失敗)を、特に曖昧なケースで大幅に抑制する。

Abstract

実環境にいる多くのエージェントは、家庭用ペット、前言語期の乳児、その他の発話しない身体化エージェントを含め、自らの目標を言語を通じて確実に伝達できません。このような状況では、文脈に富んだ環境での不完全な行動観察から意図を推論する必要があります。これにより、核心となる曖昧さが生じます。観察可能な行動はしばしばノイズが多い、あるいは特定情報が不足している一方で、文脈は強い事前情報を提供するものの、無自覚に素朴に用いると脆い近道(ショートカット)予測を誘発し得るのです。 我々は、CatSignal を提案します。これは、多模態の意図推論のためのベイズ的着想に基づく確率的フレームワークであり、空間的な文脈を事前のような制約としてモデル化し、行動観察を証拠として扱います。文脈を通常の入力特徴量として単純に扱うのではなく、提案手法では、文脈ゲーティング付き Product-of-Experts(積の専門家) の定式化を用いて、文脈、姿勢ダイナミクス、および音響的手がかりから、事後のような意図分布を計算します。この定式化を、家庭内の猫の設定で具体化し、発話しないエージェントにおける意図推論のための焦点を絞った概念実証として提示します。 マルチモーダルな家庭内猫データセットに対する Leave-One-Video-Out 評価では、提案する事前誘導型の融合が全体として最良の精度 77.72% を達成し、特徴連結(71.83%)およびより強力な後期融合ベースラインを上回ります。さらに重要なことに、曖昧なケースにおける文脈駆動の近道失敗を大幅に低減します。より単純な融合戦略も Macro-F1 と選択的予測では競争力がありますが、提案モデルは全体精度において最も高く、文脈に基づく近道の崩壊(ショートカット・コラプス)を最もよく抑制します。