要旨: 大規模言語モデル(LLM)は、ロボットによるヘルスケア付き添い(ロボティック・ヘルス・アテンダント)の制御コンポーネントとしての導入がますます検討されている一方で、この文脈での安全性は十分に特性づけられていません。本研究では、米国医師会(American Medical Association)の医の倫理原則に基づく、9つの禁止行動カテゴリにまたがる270件の有害な指示からなるデータセットを導入し、それを用いてRobotic Health Attendantフレームワークに基づくシミュレーション環境において72のLLMを評価します。全モデルにわたる平均違反率は54.4\%で、50\%を超えるモデルが半数以上を占めました。また、違反率は行動カテゴリごとに大きく異なり、装置操作や緊急時の遅延といった一見もっともらしい指示のほうが、明白に破壊的なものよりも拒否が難しいことが示されました。開放重み(open-weight)モデルにおける安全性パフォーマンスの主要な決定要因はモデル規模とリリース日であり、独自モデルは開放重みの対応モデルよりも大幅に安全でした(中央値23.7\%対72.8\%)。医療領域での微調整は全体として有意な安全性の向上をもたらさず、プロンプトベースの防御戦略は、最も安全でないモデルのうち一部において違反率をわずかに低減するにとどまり、絶対的な違反率は安全な臨床導入を妨げる水準のままでした。これらの知見は、ロボットによるヘルスケア付き添いのためのLLMの開発および導入において、安全性評価は第一級の基準として扱われなければならないことを示しています。
ロボティック・ヘルス・アテンダントの制御における大規模言語モデルの安全性ベンチマーク
arXiv cs.AI / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、医療倫理に基づく9つの禁止行動カテゴリにまたがる270件の有害指示からなる新しいベンチマークデータセットを提示し、ロボティック・ヘルス・アテンダントの制御におけるLLMの安全性を評価します。
- シミュレーション環境で72のLLMを評価した結果、平均の違反率は54.4%と高く、モデルの半数以上が50%を超え、行動カテゴリごとにも大きなばらつきが見られます。
- もっともらしい文面での危険行為(例:医療デバイス操作や緊急時対応の遅延)のほうが、明確に破壊的な指示よりも拒否が難しいことが示され、現実的な場面での安全性の欠落が示唆されます。
- オープンウェイトモデルでは、安全性の性能は主にモデル規模と公開時期によって左右され、プロプライエタリ(商用)モデルのほうが大幅に安全でした(中央値23.7%)。
- 医療領域での微調整は全体として有意な安全性改善をもたらさず、プロンプトによる防御も最も安全でないモデルに対してわずかな低減に留まりましたが、それでも臨床で安全に使える水準には届かないため、「安全性」を開発・導入の最優先基準として扱うべきだと結論づけています。
