HomeSafe-Bench: 家庭環境における具現化エージェントの危険な行動検出に対する Vision-Language Models の評価

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

HomeSafe-Benchは、動的な家庭内シナリオにおける危険な行動検出を評価する新しいベンチマークを導入し、静的画像の安全性評価が残したギャップに対処する。
このベンチマークは物理シミュレーションと動画生成を組み合わせ、六つの機能領域にわたる438の多様なケースを、細かな多次元注釈とともに提供する。
著者らはまた、HD-Guardを提案する。これは、軽量なFastBrainを迅速なスクリーニングに、非同期の大規模SlowBrainを深いマルチモーダル推論に組み合わせ、遅延と精度のバランスをとる階層型ストリーミング安全システムである。
評価は、HD-Guardがベースラインより遅延と精度のトレードオフを改善することを示し、現行のVLMベースの安全検出にボトルネックがあることを明らかにしている。
本研究は、より安全な具現化エージェントの構築や、家庭用ロボティクスにおける安全システムのベンチマーキングとアーキテクチャ設計に示唆を与える。

要旨: 具象化エージェントの急速な進化は、実世界環境における家庭用ロボットの展開を加速させている。しかし、構造化された産業環境とは異なり、家庭空間には予測不能な安全リスクが存在し、知覚遅延や常識知識の欠如といったシステムの制約が危険な誤動作を招く可能性がある。現在の安全性評価は、静止画像、テキスト、一般的な危険性に限定されがちで、これらの特定の文脈における動的な危険行動検出を適切にベンチマークできていない。このギャップを埋めるべく、\textbf{HomeSafe-Bench}は、家庭環境の危険な行動検出を評価するための挑戦的なベンチマークとして設計されている。 \textbf{HomeSafe-Bench} は物理シミュレーションと高度な動画生成を組み合わせたハイブリッドパイプラインによって構築され、六つの機能領域にまたがる438の多様なケースと、細かな多次元注釈を特徴としている。ベンチマーキングを超えて、\textbf{Hierarchical Dual-Brain Guard for Household Safety (HD-Guard)}、家庭安全のための階層的ストリーミングアーキテクチャを提案する。 HD-Guard は、継続的な高頻度スクリーニングのための軽量な FastBrain と、深いマルチモーダル推論のための非同期の大規模 SlowBrain を協調させ、推論の効率と検出精度のバランスを効果的に取る。評価は、HD-Guard が遅延と性能の間で優れたトレードオフを達成することを示し、私たちの分析は現行の VLM ベースの安全検出における重要なボトルネックを特定している。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

HomeSafe-Bench: 家庭環境における具現化エージェントの危険な行動検出に対する Vision-Language Models の評価

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer