長い会話でローカル LLM を扱う際の観察
プロンプトを設計する際、多くのアプローチは指示を追加することに焦点を当てます:
– この構造に従う
– X のように振る舞う
– Y を含め、Z を避ける
これは当初は機能しますが、文脈が拡大すると劣化する傾向があります:
– 制約が弱くなる
– 冗長性が増加する
– 応答がタスクを超えて逸脱する
元の指示がまだコンテキストウィンドウ内にある場合でも、これが起こります。
実務上より安定しているように見えるのは、より多くの指示を追加するのではなく、明示的な禁止を導入することです:
– 説明をしない
– 追加の文脈を与えない
– 望まれない追加をしない
これらの制約は、長いインタラクション全体にわたって挙動をより一貫して保つ傾向があります。
仮説:
指示は、時間とともに新しいトークンと競合するソフトなバイアスとして機能します。
禁止は出力空間への制約のように振る舞い、漂移に対してより耐性を持つようになります。
これはアテンション分布と関連があるように感じます:
文脈が拡大すると、以前のトークンは消えることはなく、相対的な影響力が低下します。
LLaMA、Mistral などのローカルモデルを扱う他の人が、特に長い文脈や複数ステップの設定で、同様の挙動を見たことがあるか興味があります。
[リンク] [コメント] 返却形式: {"translated": "翻訳されたHTML"}




