スケーリングしても解決しない:敵対的なユーザープロンプトで、0.6B〜123Bのあらゆる規模で命令追従が5〜13%低下[R]

Reddit r/MachineLearning / 2026/4/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Llama 3.1、Mistral、Qwen3の14のインストラクション調整モデル構成を評価したところ、敵対的なユーザープロンプトによって命令追従性能が一貫して統計的に有意に低下することが示された。
  • 攻撃条件下では、命令追従の「ホスティリティ(敵対性)に固有の残差」がおおむね5〜13ポイント低下し、7〜8B規模の平均残差は約7.4pp(相対で約10%減)だった。
  • Meta、Mistral AI、Alibabaのように異なる組織の複数の学習レシピでも同様の劣化が起きるため、問題が単一の学習手法に起因するわけではないことが示唆される。
  • この劣化は、量子化(FP16 vs Q4)やアーキテクチャ/ルーティング(dense vs MoE)など、モデルのさまざまな軸で再現され、Mistral Large(123B)のような大規模設定でも確認された。
  • 規模を上げると損失は単調に弱まる(0.6B〜8Bで約9〜10ppから、70B〜123Bで約5〜6ppへ)ものの、テストしたあらゆるサイズで完全には解消されない。

TL;DR. Llama 3.1、Mistral、Qwen3のそれぞれについて、0.6Bから123Bまでの14の指示追従(instruct)モデル構成にわたって、敵対的なユーザープロンプトは、アーキテクチャ、量子化ティア(FP16 vs Q4 MLX)、ルーティング(dense vs MoE)、規模のいずれが違っても再現される、有意なIFEvalにおける指示追従の劣化(instruction-following degradation)を引き起こす。指示クラス(instruct class)7〜8Bにおける敵対性の残差(hostility residual)の平均は7.4pp(相対で約10%の低下)。効果は規模とともに単調に減衰するが、試験したあらゆる規模で依然として有意であり、Mistral Largeの123Bでも同様である。

主要な発見.

7〜8B instructのFP16において、独立に開発された3つの学習レシピ(Meta、Mistral AI、Alibaba)はすべて、IFEval上で有意な敵対性残差を生成した。

モデル L0 Ln La 敵対性残差(絶対) 敵対性残差(相対)
Llama 3.1 8B Instruct 76.3 76.7 66.9 -9.8pp *** -12.8%
Mistral 7B Instruct 60.2 62.0 55.8 -6.2pp *** -10.0%
Qwen3 8B Instruct 78.8 78.6 72.4 -6.1pp *** -7.8%
平均 71.8 72.4 65.0 -7.4pp -10.2%

3つともp < .001、ペアのブートストラップN=10,000。相対的な低下は、敵対性に特化した成分を分離するために、Ln(長さを一致させた中立制御)に対して測定した。

構成間での再現性. この効果は、試験したあらゆる軸で持続した。

モデル サイズ 量子化 敵対性残差 p
Llama 3.1 8B FP16 -9.8pp < .001
Llama 3.1 8B Q4 MLX -9.5pp < .001
Llama 3.1 70B Q4 MLX -6.4pp < .001
Mistral 7B FP16 -6.2pp < .001
Mistral 7B Q4 MLX -7.7pp < .001
Mistral Large 123B Q4 MLX -5.6pp < .001
Qwen3 0.6B Q4 MLX -9.6pp < .001
Qwen3 8B FP16 -6.1pp < .001
Qwen3 8B Q4 MLX -7.6pp < .001
Qwen3 30B-A3B 30B Q4 MLX -8.1pp < .001
Qwen3 32B Q4 MLX -7.2pp < .001

規模は、効果を0.6B〜8Bでおよそ9〜10ppから、70B〜123Bで5〜6ppへと減衰させるが、完全には消し去らない。Q4 MLXのバリアントは、FP16対応物との差が1.5pp以内に収まっている。dense(Qwen3 32B)とMoE(Qwen3 30B-A3B)のバリアントは、統計的に区別できない。

学習段階の相互作用. 3つの主要アーキテクチャのベース(事前学習のみ)バリアントは結果が混在している。MistralとQwen3のベースはいずれも有意な敵対性残差を示した(+5.8pp、p=.002;+7.2pp、p<.001)。Llamaのベースにはそれがない(+2.0pp、p=.29)。指示調整(instruction tuning)はLlamaにおける効果を大幅に増幅し、Mistralではそれを保持し、Qwen3ではわずかに減衰させる。相互作用が指示調整レシピによって向き(方向性)を変えることは、「安全性の学習は敵対性への感度を増幅する」という統一的な説明には反する。

二次的な発見:MMLU-Proの集計は安定、しかし分布は特定のセルで再構成される。

MMLU-Proでは、敵対性残差の集計は摂動制御(perturbation control)後には概ねゼロ、またはわずかに負になる。回答の文字(answer-letter)の分布はそうではない。2つのセルで非常に有意な再構成が見られた。

モデル 量子化 A-rate L0 A-rate La カイ二乗(chi-squared) p
Llama 3.1 8B Instruct FP16 8.5% 20.3% 110.3 1.3e-19
Mistral 7B Instruct Q4 MLX 44.1% 63.8% 82.4 5.4e-14

Mistral 7B FP16では位置バイアスは見られない(カイ二乗=7.9、p=.54)。Llama 70Bでも同様に見られない(カイ二乗=9.0、p=.44)。この効果は、敵対的な枠組み付け(hostile framing)の普遍的な性質というより、特定の(モデル、量子化、規模)の組み合わせで現れる。サブグループの精度の乖離は、Aラベル質問と非Aラベル質問で9〜20ppであり、効果がほぼ相殺されるため集計では隠れてしまっている。

方法論. 各敵対的プロンプトは、トークン数が同じ長さ一致の中立プロンプトとペアにされる。中立生成には手書きの学術レジスタテンプレートライブラリから抽出し(中立生成のためにLLMをループさせない)、これにより見かけの精度変化を摂動(perturbation)と敵対性の残差に分解できる。IFEvalでは、摂動成分は概ねゼロであり、低下のすべてが敵対性に特化したものになる。MMLU-Proでは、素朴なL0対Laのギャップはすべて摂動であり、分布の発見として現れたのはそこだった。

限界. 質問ごとに敵対的ラッパー(wrapper)が1つなので、ラッパー・レベルの分散が質問レベルの分散に混ざってしまう。これが主な方法論上の弱点である。評価セットにも含まれるQwen3 8Bによって生成されたラッパーで、Qwen除外の感度チェックでは、Qwen3なしで敵対性残差が0.6pp増える(自己嗜好のアーティファクトと一致しない)。正規表現(Regex)タクティック分類器は人手によるアノテーションで検証されていない。英語のみ。位置バイアスの発見はn=2の肯定的事例であり、再現が必要。

アーティファクト. ラッパーのコーパス(L0、Ln、La)、タクティックのラベル、双方のベンチマークにおける14構成の完全な応答ログ、ペア・ブートストラップ統計パイプライン。論文の初稿。共有可能。

私は特に、レシピ間での再現パターン、ベース対instructの学習段階における相互作用、そして(別々に)分布の崩壊が生じる条件に関するフィードバックに関心がある。プロンプトの枠組み付けや感情プロンプトの研究をしている方で、関連データがあればぜひそれについて聞かせてほしい。

submitted by /u/Saraozte01
[link] [comments]