8つのモデルにまたがる764回のコール：細部の詰め込みは小型モデルを殺し、フィラーワードは支える構造であり、フォーマット嗜好は神話

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

小型（~3B未満）のローカルモデルは、プロンプトが過度に構造化されると精度を失う。たとえば、例やエッジケースを追加すると性能が落ち、1.5Bおよび1Bモデルでは急激な低下が見られる一方で、大きめのモデルは概ね影響を受けにくい。
2B未満のモデルでは、一見「余分」な自然言語のフィラー（例：「basically」、「I think」、言い回しの簡略化）が出力を致命的に劣化させ得ることが示唆されており、これらの談話マーカーが処理の足場（スキャフォールド）として機能している可能性がある。
記事では、フォーマット嗜好（XML vs Markdown vs 平文）が、検証したモデルの結果を有意に改善するという根拠はほとんど見つからない。パフォーマンスの差分は小さく、ローカルでの検証結果と参照した研究の双方で一貫していた。
3B未満のモデルを実運用するための実践的なプロンプト指針としては、「役割＋制約」を優先し、重い例／エッジケースの読み込みは避けること。加えて、小型モデルの助けになる可能性のあるフィラーワードをむやみに削除しないよう注意する。
著者は方法論上の警告も挙げている。境界付近のモデルでサンプル数が極端に少ない場合（例：k=1）の結果は誤解を招く可能性があり、十分な評価実行回数が必要であることを強調している。

いたるところで見かけるプロンプトの助言、具体的にする、例を追加する、XMLタグを使う——これが小さなローカルモデルでも実際に機能するのか知りたくなりました。そこで、8モデルに対して計572回呼び出しを行いました。内訳は、Ollama経由でM2 96GBとRTX 5070 Ti上でローカル6モデル、そして検証のためにフロンティアAPI2つ（GPT-4.1-miniとClaude Haiku 4.5）です。合計のAPIコストは$0.03でした。

ローカルモデルへのプロンプトの仕方を変えた3つの発見。

まず、細部を詰め込みすぎると小さなモデルに悪影響です。同じ課題内容を、構造的な複雑さを4段階でテストしました。最小（"implement fizzbuzz"）から最大（ロール + 制約 + 例 + あり得るエッジケース）までです。1.5Bモデルは、最小での合格率78%から最大での28%へと落ちました。これは、より詳しくすることで64%減ったことになります。1Bモデルも11%低下しました。3.8B以上のモデルはまったく影響を受けず、複雑さの全レベルで94%でした。どのモデルサイズにとっても、ちょうど良い（スイートスポット）は"ロール + 制約"です。例も、エッジケース一覧も不要です。そこからさらに追加すると、3B未満では出力が積極的に劣化します。

次に、つなぎ言葉（フィラー語）が小さなモデルにとって“荷重を支える”存在だということです。自然言語のフィラーである"basically"や"I think"、および"in order to"を削除し、モデルサイズごとに"to"へ簡略化するテストを行いました。qwen-coder 1.5Bでは、合格率が0.89から0.28に低下しました。原因は、2つの具体的な操作に特定できました。1つは句の簡略化（"in order to" → "to"）。もう1つはフィラーの削除（"basically"、"I think"）です。これらをそれぞれ単独で行っても、小さなモデルの出力は壊れました。一方、文字の正規化や構造の整理は、全サイズで安全でした。作業仮説は、2B未満のモデルは談話マーカーを処理の足場（スキャフォールド）として使っている、というものです。足場を取り除くと出力が崩壊します。APIモデルでは、同じ簡略化は助けになるか、まったく効果がないかのどちらかでした。これは特に“小さなモデルの問題”です。

第三に、フォーマットの好みは神話です。誰もが、ClaudeにはXML、GPTにはMarkdownを使えと言います。私は4つのローカルモデルで、XML vs Markdown vs プレーンテキストを比較しました。qwen-coder 1.5B、gemma 1B、gemma 4B、phi4 3.8Bです。96回呼び出し、3つのフォーマット、各8課題。結果はXML 0.80、Markdown 0.80、Plain 0.83。どのモデルも有意なフォーマット嗜好は示しませんでした。独立した2つの研究でも同じ結果が出ています。Format Sensitivity paper（2411.10541）ではGPT-4をテストし、0〜7ppの差分であり、有意ではありませんでした。Systima.aiは600回の呼び出しを行い、XML 98.4% = Markdown 98.4%を得ています。AnthropicはドキュメントでXMLを推奨していますが、それに関する定量的な根拠をゼロ件のまま引用しています。

ローカルで3B未満のモデルを動かしている人にとっての実用的な結論はこうです。プロンプトの“プレイブック（手順書）”は、フロンティアモデルで機能するものとは異なります。プロンプトは“ロール + 制約”の水準に保ってください。フィラー語を削らないでください。例やエッジケースを詰め込みすぎないでください。プロンプトエンジニアリングのガイドにある助言はGPT-4とClaude向けに調整されており、その一部は小さなモデルに対して実際に悪化を招きます。

誤った結論をほぼしてしまった1つの方法論上の学び：境界モデルではk=1の結果を決して信じないことです。私がk=1でテストしたあるモデルでは"フィラー語の簡略化は67%悪化させる"という結果が出ました。ところがk=3にすると、同じ実験で"フィラー語の簡略化は26%助けになる"という結果になりました。結論が完全に逆です。合格率が50〜80%の範囲にあるモデルは、単発実行ではコイン投げのようなものです。能力の境界付近のタスクに対して、単発の結果からローカルモデルをベンチマークしているなら、おそらくノイズを見ているだけです。

ローカルモデルを動かしている他の人が、APIモデルと比べてプロンプトの感度の違いに気づいたかどうか気になります。私のデータはすべてコーディング課題なので、他の作業負荷にも一般化できるかは分かりませんが、直感としては、小さなモデルのプロンプトプレイブックは本質的に別物だと思います。

submitted by /u/No_Individual_8178
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/11Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

8つのモデルにまたがる764回のコール：細部の詰め込みは小型モデルを殺し、フィラーワードは支える構造であり、フォーマット嗜好は神話

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ