TL;DR. Llama 3.1、Mistral、Qwen3のそれぞれについて、0.6Bから123Bまでの14の指示追従(instruct)モデル構成にわたって、敵対的なユーザープロンプトは、アーキテクチャ、量子化ティア(FP16 vs Q4 MLX)、ルーティング(dense vs MoE)、規模のいずれが違っても再現される、有意なIFEvalにおける指示追従の劣化(instruction-following degradation)を引き起こす。指示クラス(instruct class)7〜8Bにおける敵対性の残差(hostility residual)の平均は7.4pp(相対で約10%の低下)。効果は規模とともに単調に減衰するが、試験したあらゆる規模で依然として有意であり、Mistral Largeの123Bでも同様である。
主要な発見.
7〜8B instructのFP16において、独立に開発された3つの学習レシピ(Meta、Mistral AI、Alibaba)はすべて、IFEval上で有意な敵対性残差を生成した。
| モデル | L0 | Ln | La | 敵対性残差(絶対) | 敵対性残差(相対) |
|---|---|---|---|---|---|
| Llama 3.1 8B Instruct | 76.3 | 76.7 | 66.9 | -9.8pp *** | -12.8% |
| Mistral 7B Instruct | 60.2 | 62.0 | 55.8 | -6.2pp *** | -10.0% |
| Qwen3 8B Instruct | 78.8 | 78.6 | 72.4 | -6.1pp *** | -7.8% |
| 平均 | 71.8 | 72.4 | 65.0 | -7.4pp | -10.2% |
3つともp < .001、ペアのブートストラップN=10,000。相対的な低下は、敵対性に特化した成分を分離するために、Ln(長さを一致させた中立制御)に対して測定した。
構成間での再現性. この効果は、試験したあらゆる軸で持続した。
| モデル | サイズ | 量子化 | 敵対性残差 | p |
|---|---|---|---|---|
| Llama 3.1 | 8B | FP16 | -9.8pp | < .001 |
| Llama 3.1 | 8B | Q4 MLX | -9.5pp | < .001 |
| Llama 3.1 | 70B | Q4 MLX | -6.4pp | < .001 |
| Mistral | 7B | FP16 | -6.2pp | < .001 |
| Mistral | 7B | Q4 MLX | -7.7pp | < .001 |
| Mistral Large | 123B | Q4 MLX | -5.6pp | < .001 |
| Qwen3 | 0.6B | Q4 MLX | -9.6pp | < .001 |
| Qwen3 | 8B | FP16 | -6.1pp | < .001 |
| Qwen3 | 8B | Q4 MLX | -7.6pp | < .001 |
| Qwen3 30B-A3B | 30B | Q4 MLX | -8.1pp | < .001 |
| Qwen3 | 32B | Q4 MLX | -7.2pp | < .001 |
規模は、効果を0.6B〜8Bでおよそ9〜10ppから、70B〜123Bで5〜6ppへと減衰させるが、完全には消し去らない。Q4 MLXのバリアントは、FP16対応物との差が1.5pp以内に収まっている。dense(Qwen3 32B)とMoE(Qwen3 30B-A3B)のバリアントは、統計的に区別できない。
学習段階の相互作用. 3つの主要アーキテクチャのベース(事前学習のみ)バリアントは結果が混在している。MistralとQwen3のベースはいずれも有意な敵対性残差を示した(+5.8pp、p=.002;+7.2pp、p<.001)。Llamaのベースにはそれがない(+2.0pp、p=.29)。指示調整(instruction tuning)はLlamaにおける効果を大幅に増幅し、Mistralではそれを保持し、Qwen3ではわずかに減衰させる。相互作用が指示調整レシピによって向き(方向性)を変えることは、「安全性の学習は敵対性への感度を増幅する」という統一的な説明には反する。
二次的な発見:MMLU-Proの集計は安定、しかし分布は特定のセルで再構成される。
MMLU-Proでは、敵対性残差の集計は摂動制御(perturbation control)後には概ねゼロ、またはわずかに負になる。回答の文字(answer-letter)の分布はそうではない。2つのセルで非常に有意な再構成が見られた。
| モデル | 量子化 | A-rate L0 | A-rate La | カイ二乗(chi-squared) | p |
|---|---|---|---|---|---|
| Llama 3.1 8B Instruct | FP16 | 8.5% | 20.3% | 110.3 | 1.3e-19 |
| Mistral 7B Instruct | Q4 MLX | 44.1% | 63.8% | 82.4 | 5.4e-14 |
Mistral 7B FP16では位置バイアスは見られない(カイ二乗=7.9、p=.54)。Llama 70Bでも同様に見られない(カイ二乗=9.0、p=.44)。この効果は、敵対的な枠組み付け(hostile framing)の普遍的な性質というより、特定の(モデル、量子化、規模)の組み合わせで現れる。サブグループの精度の乖離は、Aラベル質問と非Aラベル質問で9〜20ppであり、効果がほぼ相殺されるため集計では隠れてしまっている。
方法論. 各敵対的プロンプトは、トークン数が同じ長さ一致の中立プロンプトとペアにされる。中立生成には手書きの学術レジスタテンプレートライブラリから抽出し(中立生成のためにLLMをループさせない)、これにより見かけの精度変化を摂動(perturbation)と敵対性の残差に分解できる。IFEvalでは、摂動成分は概ねゼロであり、低下のすべてが敵対性に特化したものになる。MMLU-Proでは、素朴なL0対Laのギャップはすべて摂動であり、分布の発見として現れたのはそこだった。
限界. 質問ごとに敵対的ラッパー(wrapper)が1つなので、ラッパー・レベルの分散が質問レベルの分散に混ざってしまう。これが主な方法論上の弱点である。評価セットにも含まれるQwen3 8Bによって生成されたラッパーで、Qwen除外の感度チェックでは、Qwen3なしで敵対性残差が0.6pp増える(自己嗜好のアーティファクトと一致しない)。正規表現(Regex)タクティック分類器は人手によるアノテーションで検証されていない。英語のみ。位置バイアスの発見はn=2の肯定的事例であり、再現が必要。
アーティファクト. ラッパーのコーパス(L0、Ln、La)、タクティックのラベル、双方のベンチマークにおける14構成の完全な応答ログ、ペア・ブートストラップ統計パイプライン。論文の初稿。共有可能。
私は特に、レシピ間での再現パターン、ベース対instructの学習段階における相互作用、そして(別々に)分布の崩壊が生じる条件に関するフィードバックに関心がある。プロンプトの枠組み付けや感情プロンプトの研究をしている方で、関連データがあればぜひそれについて聞かせてほしい。
[link] [comments]




