要約: 安全監督がどのように書かれるかは、含まれる明示的なアイデンティティ内容よりも重要である可能性がある。 同じ中核の安全ルールから構築された4つの監督形式を用いた、少データの LoRA 安全ファインチューニングを研究します: 憲法的ルール (A)、信条風アイデンティティ・フレーミング (B)、世界観/信仰告白のアイデンティティ維持尾部を備えた B に一致する信条条件 (C)、および一致した非アイデンティティ条件 (D)。3つのインストラクション調整済みモデルファミリ(Llama 3.1 8B、Qwen2.5 7B、Gemma 3 4B)にわたり、Bedrock がホストする DeepSeek v3.2 と Sonnet 4.6 を組み合わせた和解済みの二重審査パイプラインを用いて HarmBench を評価し、意見の相違や境界ケースは手動で解決します。
非アイデンティティ条件 D は、全320の挙動から成る HarmBench セット全体において、3つのモデルファミリすべてで最も強いグループであり、Llama で 74.4% の拒否、Gemma で 76.9%、Qwen で 74.1% に達します。 それと比較して、信条風のフレーミング (B) は Llama および Gemma で平易な憲法ルール (A) より改善されますが、D には大きく及ばず、全体としての記述順序は D > B > C a000 baseline となります。 これは、アイデンティティ・フレーミング仮説の強い版に対する境界付きの経験的挑戦を提供します。ここで観察される最も大きな利得には、明示的な信条風アイデンティティ言語は必須ではありません。 MMLU および ARC-Challenge における能力評価は、条件間で意味のあるトレードオフを示しません。
返却形式: {"translated": "翻訳されたHTML"}
信条を超えて: 非同一性安全条件が低データLoRA微調整における同一性フレーミングに対する強力な実証的代替手段
arXiv cs.CL / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低データLoRA微調整における4つの安全性監督フォーマットを、3つの指示チューニング済みモデルファミリー(Llama 3.1 8B、Qwen2.5 7B、Gemma 3 4B)に跨って検討し、HarmBenchで評価している。
- 非同一性条件Dは、Llamaで74.4%、Gemmaで76.9%、Qwenで74.1%の拒否率を、全320挙動のHarmBenchセットで生んだ。
- Creed風のフレーミング(B)はLlamaおよびGemmaにおいて平易な憲法的ルール(A)より改善されるが、Dには及ばず、全体の序列はD > B > C ≥ A > ベースラインとなる。
- MMLUおよびARC-Challengeに関する能力評価は、4条件間で意味のあるトレードオフを示さなかった。
