LABSHIELD: 科学研究室における安全性が極めて重要な推論と計画のマルチモーダルベンチマーク

arXiv cs.AI / 2026/3/13

📰 ニュースModels & Research

要点

  • LABSHIELDは、OSHA基準とGHS分類に基づき、科学研究室内の危険識別と安全性が重要な推論を評価する現実的なマルチモーダルベンチマークを導入します。
  • 164の運用タスクを網羅し、多様な操作の複雑さとリスク特性を有するため、ラボのシナリオ全体での厳密な安全性評価を可能にします。
  • 評価は、二重トラックの枠組みの下で、20の独自モデル、9つのオープンソースモデル、および3つの実体モデルを対象とします。一般ドメインのMCQ精度と安全志向のQAの性能ギャップを際立たせます。
  • 結果は、専門的なラボ環境における安全性パフォーマンスが平均32.0%低下することを示し、特に危険の解釈と安全志向の計画で顕著でした。安全性中心の推論の必要性を強調しています。
  • 完全なデータセットは近日中に公開される予定です。
人工知能は科学的自動化をますます促進しており、マルチモーダル大規模言語モデル(MLLM)エージェントはラボの助手から自律的なラボ運用者へと進化しています。この移行は、壊れやすいガラス器具、有害物質、そして高精度の研究機器が存在する実験環境に対して厳格な安全要件を課します。計画の誤りやリスクの誤解は、取り返しのつかない結果につながる可能性があります。しかし、このような高リスクの設定における具現化エージェントの安全意識と意思決定の信頼性は、まだ十分には定義・評価されていません。このギャップを埋めるべく、LABSHIELDを導入します。LABSHIELDは危険識別と安全性が重要な推論を評価する現実的なマルチビュー型ベンチマークです。OSHA(米国労働安全衛生局)の基準とGlobally Harmonized System(GHS)に基づき、LABSHIELDは164の運用タスクにわたる厳密な安全性の分類を確立し、多様な操作の複雑さとリスク特性を網羅します。私たちは、二重トラックの評価フレームワークの下で、20の独自モデル、9つのオープンソースモデル、および3つの具現化(実体)モデルを評価します。私たちの結果は、一般ドメインのMCQ精度とセミオープンQAの安全性パフォーマンスの間に体系的なギャップがあることを示し、専門的な研究室のシナリオで平均32.0%の低下を示し、特に危険の解釈と安全志向の計画で顕著でした。これらの知見は、具現化されたラボ環境における信頼性の高い自律的な科学実験を保証するためには、安全性を重視した推論フレームワークが緊急に必要であることを強調します。完全なデータセットは近日中に公開される予定です。