AI Navigate

軍事用大規模言語モデルにおける拒否の測定と排除

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、米陸軍の退役軍人によって開発された、軍事用LMMの拒否率を測定するためのゴールド標準ベンチマークを提案しており、同種のデータセットとしては初の試みであると主張している。
  • 31の公開モデルと3つの軍用モデルにわたり、厳格拒否率が最大で98.2%、ソフトな回避率が0%から21.3%の範囲であることを報告している。
  • 2つの追加の合成データセットとの相関を分析し、それらがゴールドデータセットとどう関連するかを示している。
  • 軍用チューニング済みの gpt-oss-20b モデルに対してHereticライブラリを用いたアブレーションは、回答率を絶対値で66.5ポイント増加させる一方、他の軍事タスクでは平均的な相対減少が2%となり、安全性チューニングのトレードオフを強調している。
  • 結論として、拒否をゼロにし、閉鎖的な軍事モデルの軍事タスク精度を最大化するには、中間トレーニングを含むより深い専門化と、エンドツーエンドのポストトレーニングを含むさらなる専門化を求めている。
本文: arXiv:2603.10012v1 発表タイプ: cross 要旨: 軍事用大規模言語モデル(LLMs)は、戦闘員に対して時間的に重大で危険な状況下で正確な情報を提供する必要がある。しかし、今日のLLMsには、安全性の挙動が組み込まれており、暴力、テロリズム、軍事技術に関連するものに対して多くの正当な問い合わせを拒否することが多い。米陸軍と特殊部隊の退役軍人によって開発された、拒否率を評価するためのゴールドデータセットは、私たちの知る限り初めてのデータセットである。我々は、31の公開モデルと3つの軍用モデルにおける拒否と回避の率の結果を提示する。厳格拒否率は最大で98.2%、ソフト回避率は0%から21.3%の範囲をとることを観察している。さらに、追加の2つの合成データセットの結果も示し、それらがゴールドデータセットとどのように相関するかを示す。最後に、軍用にチューニングされた gpt-oss-20b モデルに対して Heretic ライブラリを用いたアブレーションを実施し、回答率を66.5ポイント絶対増加させる一方、他の軍事タスクでは平均相対減少が2%となることを示している。我々の結論としては、閉鎖的な軍事モデルにおいて拒否をゼロにし、最大の軍事タスク精度を達成するには、中間トレーニングを含むより深い専門化と、エンドツーエンドのポストトレーニングを含むさらなる専門化が必要であると主張する。