概要: アフォーダンスの基底付け(grounding)には、開放環境のシーンにおいて、エージェントがどこでどのように相互作用すべきかを特定することが必要です。しかし、実行可能な領域はしばしば小さく、隠れており、反射性があり、視覚的に曖昧です。そのため最近のシステムは(例:検出、セグメンテーション、相互作用のイマジネーション)など複数のスキルを組み合わせますが、多くは固定されたパイプラインでそれらを統括しており、個々のインスタンスに応じた難易度への適合が不十分です。加えて、途中の誤りからの限定的な回復しか提供せず、再出現する対象物からの経験を再利用できません。これらの失敗は、システムの問題を明らかにします。すなわち、テスト時の基底付けでは、適切な根拠(エビデンス)を獲得し、その根拠がコミットするのに十分に信頼できるかを判断し、さらにラベルへのアクセスなしで、推論コストに上限がある条件下でそれを行う必要があります。私たちは、エビデンスストアとコスト制御を備えた、異種スキルを統合するクローズドループ実行基盤「Affordance Agent Harness」を提案します。これにより、反復されるカテゴリに対する事前情報を与えるためのエピソード記憶を取得し、Routerを用いてスキルを適応的に選択し、パラメータ化します。その後、アフォーダンス固有のVerifierが、自身の整合性(self-consistency)、スケールをまたいだ安定性(cross-scale stability)、およびエビデンスの十分性(evidence sufficiency)に基づいてコミットをゲートし、最終的な判定者が、蓄積されたエビデンスと軌跡(trajectory)を融合して予測を行う前に、ターゲットを絞ったリトライを起動します。複数のアフォーダンスベンチマークおよび難易度を制御したサブセットでの実験では、固定パイプラインのベースラインよりも、精度とコストのパレートフロンティアがより強いことが示されました。これにより、平均的なスキル呼び出し回数とレイテンシを削減しつつ、基底付けの品質が向上します。プロジェクトページ: https://tenplusgood.github.io/a-harness-page/。
Affordance Agent Harness:検証ゲート付きスキルオーケストレーション
arXiv cs.CV / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、行動可能領域が小さく、遮蔽され、反射的で、視覚的に紛らわしいことが多いオープンワールド環境におけるアフォーダンス・グラウンディングを扱う。
- 既存の複数スキルを組み合わせるエージェントは固定的なパイプラインに依存しており、インスタンスごとの難易度に適応できず、中間エラーからの回復も限定的で、繰り返し現れる物体の経験も活用できないと指摘する。
- 提案する「Affordance Agent Harness」は、証拠ストアと推論コスト制御により異種スキルを統合し、再出現するカテゴリに対する事前知識を与えるエピソード記憶と、スキルを適応的に選択・パラメータ化するRouterを備える。
- アフォーダンス固有のVerifierが、自己整合性・クロススケール安定性・証拠の十分性に基づいてコミット可否をゲートし、最終的なジャッジが蓄積した証拠と軌跡を統合する前に、必要に応じて的確なリトライを起動する。
- 複数のアフォーダンス・ベンチマークと難易度制御されたサブセットでの実験により、固定パイプラインよりも精度とコストのトレードオフが改善し、平均的なスキル呼び出し数とレイテンシを抑えつつグラウンディング品質を向上させることを示す。



