AI Navigate

HomeSafe-Bench: 家庭環境における具現化エージェントの危険な行動検出に対する Vision-Language Models の評価

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HomeSafe-Benchは、動的な家庭内シナリオにおける危険な行動検出を評価する新しいベンチマークを導入し、静的画像の安全性評価が残したギャップに対処する。
  • このベンチマークは物理シミュレーションと動画生成を組み合わせ、六つの機能領域にわたる438の多様なケースを、細かな多次元注釈とともに提供する。
  • 著者らはまた、HD-Guardを提案する。これは、軽量なFastBrainを迅速なスクリーニングに、非同期の大規模SlowBrainを深いマルチモーダル推論に組み合わせ、遅延と精度のバランスをとる階層型ストリーミング安全システムである。
  • 評価は、HD-Guardがベースラインより遅延と精度のトレードオフを改善することを示し、現行のVLMベースの安全検出にボトルネックがあることを明らかにしている。
  • 本研究は、より安全な具現化エージェントの構築や、家庭用ロボティクスにおける安全システムのベンチマーキングとアーキテクチャ設計に示唆を与える。
要旨: 具象化エージェントの急速な進化は、実世界環境における家庭用ロボットの展開を加速させている。しかし、構造化された産業環境とは異なり、家庭空間には予測不能な安全リスクが存在し、知覚遅延や常識知識の欠如といったシステムの制約が危険な誤動作を招く可能性がある。現在の安全性評価は、静止画像、テキスト、一般的な危険性に限定されがちで、これらの特定の文脈における動的な危険行動検出を適切にベンチマークできていない。 このギャップを埋めるべく、\textbf{HomeSafe-Bench}は、家庭環境の危険な行動検出を評価するための挑戦的なベンチマークとして設計されている。 \textbf{HomeSafe-Bench} は物理シミュレーションと高度な動画生成を組み合わせたハイブリッドパイプラインによって構築され、六つの機能領域にまたがる438の多様なケースと、細かな多次元注釈を特徴としている。 ベンチマーキングを超えて、\textbf{Hierarchical Dual-Brain Guard for Household Safety (HD-Guard)}、家庭安全のための階層的ストリーミングアーキテクチャを提案する。 HD-Guard は、継続的な高頻度スクリーニングのための軽量な FastBrain と、深いマルチモーダル推論のための非同期の大規模 SlowBrain を協調させ、推論の効率と検出精度のバランスを効果的に取る。 評価は、HD-Guard が遅延と性能の間で優れたトレードオフを達成することを示し、私たちの分析は現行の VLM ベースの安全検出における重要なボトルネックを特定している。