SafetyALFRED：マルチモーダル大規模言語モデルの安全性を意識した計画を評価する

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、ALFREDをベースに6種類の実世界のキッチンにおける危険を追加した、安全性重視のエンボディド・エージェント向けベンチマーク「SafetyALFRED」を提案します。
これまでの安全性評価が主にテキストのみのQA設定での危険認識に焦点を当てていたのに対し、SafetyALFREDは危険認識に加えて、エンボディド計画による主動的なリスク低減を測定します。
Qwen、Gemma、Geminiファミリーの11の最先端マルチモーダルLLMを検証した結果、「危険認識はできるが、低減にはつながりにくい」という顕著なギャップが示されました。
著者らは、静的なQAベースの評価だけでは物理的安全を保証できないため、是正行動を重視するベンチマークへのパラダイム転換を訴えています。
コードとデータセットはオープンソースとして公開されています（GitHub：https://github.com/sled-group/SafetyALFRED.git）。

要旨: マルチモーダル大規模言語モデルは、対話的な環境における自律エージェントとしてますます採用されている一方で、安全上のハザードを先回りして対処する能力はいまだ不十分です。私たちは、身体化エージェントのベンチマークであるALFREDを土台に、現実世界のキッチンにおけるハザードを6つのカテゴリで拡張したSafetyALFREDを提案します。既存の安全性評価は、分離された質問応答（QA）設定においてハザードを認識することに焦点を当てていますが、私たちは、Qwen、Gemma、Geminiファミリーの最先端モデル11個を、ハザード認識だけでなく、身体化された計画による能動的なリスク低減についても評価します。実験結果から、重要なアライメントのギャップが明らかになりました。すなわち、QA設定においてはモデルがハザードを正確に認識できるにもかかわらず、これらのハザードに対する平均の低減成功率は比較して低いのです。私たちの発見は、QAによる静的評価だけでは身体的な安全を担保するには不十分であることを示しており、身体化された状況において修正のための行動を優先するベンチマークへとパラダイムを転換することを提唱します。コードとデータセットを https://github.com/sled-group/SafetyALFRED.git でオープンソースとして公開します