信条を超えて: 非同一性安全条件が低データLoRA微調整における同一性フレーミングに対する強力な実証的代替手段

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低データLoRA微調整における4つの安全性監督フォーマットを、3つの指示チューニング済みモデルファミリー（Llama 3.1 8B、Qwen2.5 7B、Gemma 3 4B）に跨って検討し、HarmBenchで評価している。
非同一性条件Dは、Llamaで74.4%、Gemmaで76.9%、Qwenで74.1%の拒否率を、全320挙動のHarmBenchセットで生んだ。
Creed風のフレーミング（B）はLlamaおよびGemmaにおいて平易な憲法的ルール（A）より改善されるが、Dには及ばず、全体の序列はD > B > C ≥ A > ベースラインとなる。
MMLUおよびARC-Challengeに関する能力評価は、4条件間で意味のあるトレードオフを示さなかった。

要約: 安全監督がどのように書かれるかは、含まれる明示的なアイデンティティ内容よりも重要である可能性がある。同じ中核の安全ルールから構築された4つの監督形式を用いた、少データの LoRA 安全ファインチューニングを研究します: 憲法的ルール (A)、信条風アイデンティティ・フレーミング (B)、世界観/信仰告白のアイデンティティ維持尾部を備えた B に一致する信条条件 (C)、および一致した非アイデンティティ条件 (D)。3つのインストラクション調整済みモデルファミリ（Llama 3.1 8B、Qwen2.5 7B、Gemma 3 4B）にわたり、Bedrock がホストする DeepSeek v3.2 と Sonnet 4.6 を組み合わせた和解済みの二重審査パイプラインを用いて HarmBench を評価し、意見の相違や境界ケースは手動で解決します。
非アイデンティティ条件 D は、全320の挙動から成る HarmBench セット全体において、3つのモデルファミリすべてで最も強いグループであり、Llama で 74.4% の拒否、Gemma で 76.9%、Qwen で 74.1% に達します。それと比較して、信条風のフレーミング (B) は Llama および Gemma で平易な憲法ルール (A) より改善されますが、D には大きく及ばず、全体としての記述順序は $D > B > C a000 baseline$ となります。これは、アイデンティティ・フレーミング仮説の強い版に対する境界付きの経験的挑戦を提供します。ここで観察される最も大きな利得には、明示的な信条風アイデンティティ言語は必須ではありません。 MMLU および ARC-Challenge における能力評価は、条件間で意味のあるトレードオフを示しません。
返却形式: {"translated": "翻訳されたHTML"}

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

信条を超えて: 非同一性安全条件が低データLoRA微調整における同一性フレーミングに対する強力な実証的代替手段

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer