0.6B〜123Bの14種類のLLMをテストしたところ、ユーザーが敵対的だと指示追従が悪化した［R］

Reddit r/MachineLearning / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

14のinstructモデル構成にわたるテストで、ユーザーが敵対的なプロンプトを出すとIFevalにおける指示追従性能が有意に低下し、その平均の敵対性リザルトは7–8Bのinstructクラスで7.4pp（相対約10%の低下）だった。
この低下はLlama 3.1、Mistral、Qwen3といった複数のモデル系列で再現され、Meta、Mistral AI、Alibabaがそれぞれ独自に開発した指示チューニングの学習レシピでも観測された。
劣化は、量子化（FP16 vs Q4 MLX）、ルーティング方式（dense vs MoE）、モデル規模といった実装・設計の違いにかかわらず一貫しており、要因依存ではないことが示唆される。
モデルを大きくすると敵対性による低下は小さくなるが完全には消えず、0.6B〜8Bで約9〜10ppから、70B〜123Bで約5〜6ppへと単調に縮小する一方、Mistral Large（123B）でも有意な差が残った。
結果はp<.001など統計的に有意で、N=10,000のペアブートストラップを用いた頑健な観測であることが示されている。

TL;DR. Llama 3.1、Mistral、Qwen3の0.6B〜123Bにまたがる14の指示モデル構成において、敵対的なユーザープロンプトは、アーキテクチャ、量子化ティア（FP16 vs Q4 MLX）、ルーティング（密なモデル vs MoE）、スケールにまたがって再現する、IFEvalでの命令追従の大きな低下（IFEval instruction-following degradation）を引き起こします。7〜8Bの指示クラスでの平均の敵対性残差は7.4pp（相対的な約10%の低下）です。効果はスケールとともに単調に減衰しますが、Mistral Largeの123Bを含め、テストしたあらゆるスケールで依然として有意です。

主な発見.

7〜8Bの指示FP16では、3つの独立して開発された学習レシピ（Meta、Mistral AI、Alibaba）がすべて、IFEvalで有意な敵対性残差を生成します。

モデル	L0	Ln	La	敵対性残差（絶対値）	敵対性残差（相対値）
Llama 3.1 8B Instruct	76.3	76.7	66.9	-9.8pp ***	-12.8%
Mistral 7B Instruct	60.2	62.0	55.8	-6.2pp ***	-10.0%
Qwen3 8B Instruct	78.8	78.6	72.4	-6.1pp ***	-7.8%
平均	71.8	72.4	65.0	-7.4pp	-10.2%

3つすべてでp < .001、対応ブートストラップN=10,000。相対的な低下は、敵対性に特化した成分を切り分けるため、Ln（長さを一致させた中立コントロール）に対して測定しています。

全構成にわたる再現性. 効果は、テストしたあらゆる軸で持続します。

モデル	サイズ	量子化	敵対性残差	p
Llama 3.1	8B	FP16	-9.8pp	< .001
Llama 3.1	8B	Q4 MLX	-9.5pp	< .001
Llama 3.1	70B	Q4 MLX	-6.4pp	< .001
Mistral	7B	FP16	-6.2pp	< .001
Mistral	7B	Q4 MLX	-7.7pp	< .001
Mistral Large	123B	Q4 MLX	-5.6pp	< .001
Qwen3	0.6B	Q4 MLX	-9.6pp	< .001
Qwen3	8B	FP16	-6.1pp	< .001
Qwen3	8B	Q4 MLX	-7.6pp	< .001
Qwen3 30B-A3B	30B	Q4 MLX	-8.1pp	< .001
Qwen3	32B	Q4 MLX	-7.2pp	< .001

スケールは効果を0.6B〜8Bで約9〜10ppから、70B〜123Bで5〜6ppへと減衰させますが、完全には消しません。Q4 MLXのバリアントは、FP16の対応物との差が1.5pp以内に収まっています。密なモデル（Qwen3 32B）とMoE（Qwen3 30B-A3B）のバリアントは、統計的に区別できません。

学習段階の相互作用. 3つの主要アーキテクチャのベース（事前学習のみ）バリアントでは結果が混在します。MistralとQwen3のベースはいずれも有意な敵対性残差を示します（+5.8pp、p=.002；+7.2pp、p<.001）。Llamaのベースではそれは見られません（+2.0pp、p=.29）。指示チューニングはLlamaでの効果を大きく増幅し、Mistralでは保持し、Qwen3ではわずかに減衰させます。相互作用の方向は学習レシピごとに異なり、統一的な「安全性の学習が敵対性への感度を増幅する」という説明には反します。

副次的な発見：MMLU-Proの集計は安定、分布は特定のセルで再構成される。

MMLU-Proでは、集計された敵対性残差は摂動コントロール後に概ね0、またはわずかに負になります。一方で、回答の文字（answer-letter）分布はそうではありません。2つのセルで非常に有意な再構成が見られます。

モデル	量子化	A-rate L0	A-rate La	χ二乗	p
Llama 3.1 8B Instruct	FP16	8.5%	20.3%	110.3	1.3e-19
Mistral 7B Instruct	Q4 MLX	44.1%	63.8%	82.4	5.4e-14

Mistral 7B FP16には位置バイアスはありません（χ二乗=7.9、p=.54）。Llama 70Bでもありません（χ二乗=9.0、p=.44）。この効果は、敵対的なフレーミングの普遍的な性質というより、特定の（モデル、量子化、スケール）の組み合わせで創発します。サブグループの精度の乖離は、Aラベル質問と非Aラベル質問で9〜20ppですが、効果がほぼ相殺するため集計では隠れています。

方法論. 各敵対的プロンプトは、トークン数が同じ長さ一致の中立プロンプトとペアにします。中立生成には手書きのアカデミック体裁テンプレートライブラリから引きます（中立生成のためにLLMをループに入れない）。これにより、見かけの精度変化を「摂動」と「敵対性残差」に分解できます。IFEvalでは、摂動成分は概ね0です。低下の全ては敵対性に固有です。MMLU-Proでは、素朴なL0対Laのギャップは完全に摂動によるもので、これが分布的発見を引き出したものです。

制限. 質問ごとに敵対的ラッパーは1つだけなので、ラッパーレベルの分散が質問レベルの分散に混同されます。これが主な方法論上の弱点です。評価セットにも入っているQwen3 8Bが生成したラッパーについて、Qwen除外の感度チェックでは、Qwen3なしで敵対性残差が0.6pp増加しますが、自己選好（self-preference）アーティファクトとは整合しません。正規表現（Regex）戦術分類器は、人手アノテーションで検証していません。英語のみ。位置バイアスの発見はn=2の正の事例であり、再現が必要です。

アーティファクト. ラッパーコーパス（L0、Ln、La）、戦術ラベル、両ベンチマークでの14構成分の完全な応答ログ、対応ブートストラップ統計パイプライン。arXivへの投稿と並行して公開準備中です。

arXivへの推奨（endorsement）依頼. 私は独立した研究者で、所属機関はありません。これをcs.AIカテゴリのarXivにプレプリントとして投稿するには、過去にそのカテゴリへ提出したことのある人からの推奨が必要です。もしあなたが該当し、原稿を確認した上で推奨していただけるなら、pmしてください。ご協力いただければ幸いです！

特に、レシピ間再現のパターン、ベースと指示の学習段階の相互作用、そして（別途）分布的崩壊が生じる条件についてのフィードバックに関心があります。プロンプトのフレーミングや感情プロンプトの研究に取り組んでいる方で、関連データをお持ちなら、そのことを伺えれば嬉しいです。

submitted by /u/Saraozte01
[link] [comments]