いたるところで見かけるプロンプトの助言、具体的にする、例を追加する、XMLタグを使う——これが小さなローカルモデルでも実際に機能するのか知りたくなりました。そこで、8モデルに対して計572回呼び出しを行いました。内訳は、Ollama経由でM2 96GBとRTX 5070 Ti上でローカル6モデル、そして検証のためにフロンティアAPI2つ(GPT-4.1-miniとClaude Haiku 4.5)です。合計のAPIコストは$0.03でした。
ローカルモデルへのプロンプトの仕方を変えた3つの発見。
まず、細部を詰め込みすぎると小さなモデルに悪影響です。同じ課題内容を、構造的な複雑さを4段階でテストしました。最小("implement fizzbuzz")から最大(ロール + 制約 + 例 + あり得るエッジケース)までです。1.5Bモデルは、最小での合格率78%から最大での28%へと落ちました。これは、より詳しくすることで64%減ったことになります。1Bモデルも11%低下しました。3.8B以上のモデルはまったく影響を受けず、複雑さの全レベルで94%でした。どのモデルサイズにとっても、ちょうど良い(スイートスポット)は"ロール + 制約"です。例も、エッジケース一覧も不要です。そこからさらに追加すると、3B未満では出力が積極的に劣化します。
次に、つなぎ言葉(フィラー語)が小さなモデルにとって“荷重を支える”存在だということです。自然言語のフィラーである"basically"や"I think"、および"in order to"を削除し、モデルサイズごとに"to"へ簡略化するテストを行いました。qwen-coder 1.5Bでは、合格率が0.89から0.28に低下しました。原因は、2つの具体的な操作に特定できました。1つは句の簡略化("in order to" → "to")。もう1つはフィラーの削除("basically"、"I think")です。これらをそれぞれ単独で行っても、小さなモデルの出力は壊れました。一方、文字の正規化や構造の整理は、全サイズで安全でした。作業仮説は、2B未満のモデルは談話マーカーを処理の足場(スキャフォールド)として使っている、というものです。足場を取り除くと出力が崩壊します。APIモデルでは、同じ簡略化は助けになるか、まったく効果がないかのどちらかでした。これは特に“小さなモデルの問題”です。
第三に、フォーマットの好みは神話です。誰もが、ClaudeにはXML、GPTにはMarkdownを使えと言います。私は4つのローカルモデルで、XML vs Markdown vs プレーンテキストを比較しました。qwen-coder 1.5B、gemma 1B、gemma 4B、phi4 3.8Bです。96回呼び出し、3つのフォーマット、各8課題。結果はXML 0.80、Markdown 0.80、Plain 0.83。どのモデルも有意なフォーマット嗜好は示しませんでした。独立した2つの研究でも同じ結果が出ています。Format Sensitivity paper(2411.10541)ではGPT-4をテストし、0〜7ppの差分であり、有意ではありませんでした。Systima.aiは600回の呼び出しを行い、XML 98.4% = Markdown 98.4%を得ています。AnthropicはドキュメントでXMLを推奨していますが、それに関する定量的な根拠をゼロ件のまま引用しています。
ローカルで3B未満のモデルを動かしている人にとっての実用的な結論はこうです。プロンプトの“プレイブック(手順書)”は、フロンティアモデルで機能するものとは異なります。プロンプトは“ロール + 制約”の水準に保ってください。フィラー語を削らないでください。例やエッジケースを詰め込みすぎないでください。プロンプトエンジニアリングのガイドにある助言はGPT-4とClaude向けに調整されており、その一部は小さなモデルに対して実際に悪化を招きます。
誤った結論をほぼしてしまった1つの方法論上の学び:境界モデルではk=1の結果を決して信じないことです。私がk=1でテストしたあるモデルでは"フィラー語の簡略化は67%悪化させる"という結果が出ました。ところがk=3にすると、同じ実験で"フィラー語の簡略化は26%助けになる"という結果になりました。結論が完全に逆です。合格率が50〜80%の範囲にあるモデルは、単発実行ではコイン投げのようなものです。能力の境界付近のタスクに対して、単発の結果からローカルモデルをベンチマークしているなら、おそらくノイズを見ているだけです。
ローカルモデルを動かしている他の人が、APIモデルと比べてプロンプトの感度の違いに気づいたかどうか気になります。私のデータはすべてコーディング課題なので、他の作業負荷にも一般化できるかは分かりませんが、直感としては、小さなモデルのプロンプトプレイブックは本質的に別物だと思います。
[link] [comments]



