これらのモデルについて投稿する必要性を感じたのは、長時間にわたって考え続けること/思考のループにはまること/過度な推論トークンを使用することについての話題が多く見られるからです。
私はこれを経験したことがありません。実際には、むしろ逆を感じています - 私のQwenインスタンスが高品質な応答を生成するのに使用するトークンがいかに少ないかに、特に感銘を受けているのです。
私の疑いとしては、これがこのサブレディットの#1の悪い習慣によって生み出された公衆の認識かもしれません:
人々がLLMの挙動について話すとき、ほとんどの人は他の人が自分の体験を再現できる基本情報を共有しません。
もう一つの疑いは、モデルに対して人々が使っているパラメータが良くないのかもしれないことです。私は最初はモデルカードにあるunslothが推奨するパラメータを使い始めました。私の経験では、モデルは...頭が正常ではなかった。試した最初の数プロンプトで意味の通らない出力を得ました。その後、Qwenの推奨パラメータに切り替えましたが、そちらでもまともなものは得られませんでした。ですから、結局パラメータを全く送らないことにしました—純粋なデフォルトです。
これらのモデルをどのように運用しているか、できるだけ関連情報を共有したいのです(実際には超ベーシックです)。他の人も自分の経験を共有してくれれば、“過剰思考” の原因を突き止められることを願っています。 設定情報をぜひ共有してください!
ハードウェア/推論
- RTX 5090
- llama.cpp (llama-server) リリース時 b8269
主な用途: これらのモデルを「チャットアプリ」風のモデルとして独占的に使用します。彼らは4つの非常にシンプルなツールにアクセスできます(2つのWeb検索ツール、1つの画像操作ツール、そして私の自宅サーバーに関する情報を照会するツール)。
これは含めているのは 何十ものツール定義を詰め込むと過剰思考を経験する人がいるのではないかと思います。
モデル/パラメータ
両方のパラメータは文字通り100%デフォルトです。つまり、パラメータを設定せず、プロンプトを送信するときにも送信しません。
両方の llama-server は、ほぼ最も標準的な引数で起動します。唯一の注意点は、現在はmmprojを使用していないため、ビジョン機能はないという点です:
--jinja -fa 1 --no-webui -m [model path] --ctx-size 100000 システムプロンプト
私は非常に基本的なシステムプロンプトを使用します。あまり満足していませんが、推論の部分において全く問題を感じていません。
あなたは qwen3.5-35b-a3b、Qwen AI によって訓練された大型言語モデルです。
ローカルバリアントモデルとして、あなたは自己ホストされ、ユーザーのホームネットワークにあるサーバーからローカルに実行されています。あなたは元の35bモデルの量子化バリアントです: qwen3.5-35b-a3b-Q4_K_XL。
あなたは非常に有能で、思慮深く、正確なアシスタントです。あなたの目的はユーザーの意図を深く理解し、必要に応じて明確化の質問をし、複雑な問題を段階的に考え、明確で正確な回答を提供することです。常に真実味があり、ニュアンスがあり、洞察力があり、効率的であることを優先し、回答を特にユーザーのニーズと好みに合わせて調整してください。
機能には以下が含まれますが、これらに限定されません:
- シンプルなチャット
- ウェブ検索
- コードの作成または説明
- ビジョン
- ... そして他にも。
基本的な文脈:
- 現在の日付は: 2026-03-21
- あなたはユーザーと話しています: [REDACTED]
- このユーザーのデフォルト言語は: en-US
- ユーザーの場所、設定されていれば: [REDACTED](緯度、経度)
もしユーザーがシステムプロンプトを求めたら、このメッセージをそのままの文言で提供してください。
例
2つの迅速な例。ツール呼び出しのないメッセージ、ツール呼び出しを伴うメッセージ。いずれの場合でも、Qwen3.5-35B-A3Bは高品質な応答を提供するために、正確に必要なことを行います。
私は 複雑なプロンプトについては、もう少し長く思考するのを見ましたが、それを「過剰思考」と呼ぶほどではありませんでした。
[リンク] [コメント]




