文脈を事前知識として:家庭の猫テストベッドによる非言語エージェントのためのベイズ的触発の意図推定
arXiv cs.CV / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、非言語エージェントに対して、ノイズのある不完全な行動観測と豊かな空間文脈を組み合わせて意図を推定する「CatSignal」を提案する。
- 文脈を通常の入力特徴として扱うのではなく、文脈ゲート付きのProduct-of-Expertsにより、文脈・姿勢ダイナミクス・音響手がかりから事後分布に近い意図分布を計算する。
- 家庭内の猫を対象にしたテストベッドは、言語で目標を伝えられない身体エージェントにおける意図推定のプローフ・オブ・コンセプトを示している。
- マルチモーダルな家庭用猫データセットでのleave-one-video-out評価では、CatSignalは総合精度77.72%を達成し、特徴の連結(71.83%)や後期フュージョンのベースラインを上回る。
- 精度向上に加えて、文脈を素朴に使った場合に起きやすい脆いショートカット予測(文脈ドリブンの失敗)を、特に曖昧なケースで大幅に抑制する。




