軍事用大規模言語モデルにおける拒否の測定と排除

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、米陸軍の退役軍人によって開発された、軍事用LMMの拒否率を測定するためのゴールド標準ベンチマークを提案しており、同種のデータセットとしては初の試みであると主張している。
31の公開モデルと3つの軍用モデルにわたり、厳格拒否率が最大で98.2%、ソフトな回避率が0%から21.3%の範囲であることを報告している。
2つの追加の合成データセットとの相関を分析し、それらがゴールドデータセットとどう関連するかを示している。
軍用チューニング済みの gpt-oss-20b モデルに対してHereticライブラリを用いたアブレーションは、回答率を絶対値で66.5ポイント増加させる一方、他の軍事タスクでは平均的な相対減少が2%となり、安全性チューニングのトレードオフを強調している。
結論として、拒否をゼロにし、閉鎖的な軍事モデルの軍事タスク精度を最大化するには、中間トレーニングを含むより深い専門化と、エンドツーエンドのポストトレーニングを含むさらなる専門化を求めている。

本文: arXiv:2603.10012v1 発表タイプ: cross 要旨: 軍事用大規模言語モデル（LLMs）は、戦闘員に対して時間的に重大で危険な状況下で正確な情報を提供する必要がある。しかし、今日のLLMsには、安全性の挙動が組み込まれており、暴力、テロリズム、軍事技術に関連するものに対して多くの正当な問い合わせを拒否することが多い。米陸軍と特殊部隊の退役軍人によって開発された、拒否率を評価するためのゴールドデータセットは、私たちの知る限り初めてのデータセットである。我々は、31の公開モデルと3つの軍用モデルにおける拒否と回避の率の結果を提示する。厳格拒否率は最大で98.2%、ソフト回避率は0%から21.3%の範囲をとることを観察している。さらに、追加の2つの合成データセットの結果も示し、それらがゴールドデータセットとどのように相関するかを示す。最後に、軍用にチューニングされた gpt-oss-20b モデルに対して Heretic ライブラリを用いたアブレーションを実施し、回答率を66.5ポイント絶対増加させる一方、他の軍事タスクでは平均相対減少が2%となることを示している。我々の結論としては、閉鎖的な軍事モデルにおいて拒否をゼロにし、最大の軍事タスク精度を達成するには、中間トレーニングを含むより深い専門化と、エンドツーエンドのポストトレーニングを含むさらなる専門化が必要であると主張する。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

軍事用大規模言語モデルにおける拒否の測定と排除

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer