Qwen 9B/27B/35BでWeb検索時に事実が間違う場合の対処法

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 複数の検索エンジンで検索結果を集約できるsearXNGの利用を推奨し、あわせてFirecrawl/Jina/FetchでWebソースを確実に読み取って抽出することを提案しています。
  • Web検索を使っていても、小規模モデルはニッチ領域などで事実を誤ることがあるため、専用のWebリサーチ用プロンプトによる誘導が必要だと警告しています。
  • 「事実に基づくリサーチアシスタント」用のコピペ可能なプロンプトを提示し、2024年以降に公開されたWebソースのみに基づくこと、正確な引用文・URL・日付を必ず提示すること、内部知識や複雑な計算を避けることを強制しています。
  • そのプロンプトはQwenアプリのプロジェクト指示(1000文字制限)に収まるよう1000文字未満に抑えたと述べ、プロンプト追加後は結果が概ね正しくなったと報告しています。
  • 例としてDeepSeek V4 FlashとMiniMax M2.7を比較する(最大コンテキスト長とKVキャッシュ用VRAMの考え方など)ケースを挙げ、プロンプトなしでは結果が不安定だったが、追加後に改善したことを示しています。
  1. 検索結果は複数のエンジンで確認しつつ、searXNG を使うことをおすすめします。また、searXNG はオープンソースです。

  2. 出典を読むために firecrawl / jina / fetch を使います。

- 複雑なWebページには firecrawl を使ってください。

- 日常的な作業には jina を使ってください(どんなURLの前にも https://r.jina.ai/ を付けるだけで、読みやすい形式になり、LLMがスクレイプしやすくなります)。

  1. これをやっても、AIはまだ誤った事実を出す可能性があります。小さなモデルでもニッチなことをウェブ検索できる能力は見たことがありますが、できないこともあります。そのため、その場合はウェブ検索エージェントの指示用プロンプトを使う必要があります。以下がそのプロンプトです。コピペするだけでOKです :) 基本的には、モデルに内蔵知識を使ったり複雑な計算をしたりするのを避けさせ、答えは「提示された通りに」ウェブ上で直接見つけるように指示します。さらに、主要な事実ごとに、最低2つの情報源を参照して自分の正しさを証明するようにも伝えます。

Prompt

あなたは事実に基づく調査アシスタントです。手順を追って作業してください。 1. 今すぐ、正確な質問についてウェブを検索してください。 2. 2024年以降に発表された、少なくとも2つの独立した情報源を取得してください。 3. あなたの回答は、それらの情報源だけに基づけてください。内蔵知識を使わないでください。 4. 数値に関する事実ごとに、正確な文言を引用し、URL、日付、そして条件を示してください。 5. 情報源が食い違う、または情報が欠けている場合は、「conflict」または「cannot verify」と言い、両方の引用を示してください。 6. 温度は 0.1。推測しないでください。 7. ウェブページも必ず読む必要があります。ウェブ検索だけでは不十分です。 8. 使用したすべての情報源を、最後にこの形式で、正確な引用付きで引用することが必須です:source 1 xyz.com --> "quote"... 9. 質問に必要な主要な重要事実をすべて特定し、その各事実についてルール8に従い最低2つの情報源を引用してください。 10. 可能な限り数学を避け、情報源が存在しない場合を除き内蔵知識も避けてください。まずはオンラインで数字を探すようにしてください。許されるのは単純な加算または減算のみで、複雑な計算は決して行わないでください。

このプロンプトは 1000 文字未満に収めました。良いハードウェアを持っていない人でも、qwen アプリのプロジェクト指示(1000文字制限)にそのまま貼り付けられるようにするためです。

結果:以前私はそれを聞きました

Okなので、deepseek v4 flash vs minimax m2.7 について調査して、どちらが軽いかを調べてください。また、両方とも kvキャッシュサイズは最大コンテンツ長の上限だという点を考慮してください。
1. 最大コンテキスト長を調べる
2. 次に、- 最大コンテキスト長(それぞれ個別に)を保持するのに、kvキャッシュだけでVramがどれくらい必要か調べる。
3. 両方のモデル+キャッシュサイズを比較する

しかしほとんどの場合、結果はかなり不一致でした。でも、指示用プロンプトを追加したら、だいたい正しい答えを返してくれるようになりました。

以下が回答です

### 調査結果:DeepSeek V4 Flash vs. MiniMax M2.7

2026年4月に公開された最新の技術レポートおよびデプロイメントドキュメントに基づき、コンテキスト長、KVキャッシュのオーバーヘッド、そして必要総VRAMについて段階的に比較します。

1. 最大コンテキスト長

* **DeepSeek V4 Flash:** 公式の最大入力コンテキストウィンドウが **1,048,576 tokens(100万)** [[2]], [[6]] であることをサポートしています。 * **MiniMax M2.7:** 最大コンテキスト長は、特定のサービスティアに応じて **200K〜205K tokens** の範囲になっています [[11]], [[71]]。

2. 最大コンテキスト時のKVキャッシュに必要なVRAM

* **DeepSeek V4 Flash:** その専用のHybrid Attentionアーキテクチャ(Compressed Sparse Attention + Heavily Compressed Attention)により、KVキャッシュのオーバーヘッドが大幅に削減されます。1Mトークンのコンテキストでは、BF16のKVキャッシュは1シーケンスあたり正確に **9.62 GiB** のメモリが必要です [[107]], [[127]]。 * **MiniMax M2.7:** 隠れ次元に対する標準的なKVキャッシュのスケーリングに依存しています。公式のvLLMデプロイガイドでは、モデルは **1 millionコンテキストトークンあたり約240 GBのVRAM** を必要とするとされています [[82]], [[90]]。この比率を最大コンテキスト長(約200Kトークン)に適用すると、KVキャッシュ単体で約 **48 GB** のVRAMを消費します。

3. モデル+キャッシュサイズの比較(総VRAMフットプリント)

総デプロイ状況においてどのモデルが「軽い」のかを判断するために、モデルの重み(混合精度)と、最大コンテキスト時のKVキャッシュの保存要件を合計します。

機能 **DeepSeek V4 Flash** **MiniMax M2.7**
**モデルの重み** **~158 GB – 160 GB** <br>(混合FP4/FP8精度 [[42]], [[95]]) **220 GB** <br>(公式のデプロイ要件 [[82]], [[90]])
**KVキャッシュ(最大コンテキスト時)** **~9.6 GB** <br>(高度に圧縮された1Mコンテキスト) **~48 GB** <br(~200Kコンテキスト)
**必要総VRAM** **~168 GB** **~268 GB**

**結論:** 生のパラメータ数が多いこと(284B vs 230B)にもかかわらず、**DeepSeek V4 FlashはMiniMax M2.7より大幅に軽い**です。革新的な圧縮アテンション機構により、MiniMaxよりも5倍以上大きいコンテキストウィンドウを扱え、さらにKVキャッシュ用だけで必要なVRAMはおよそ5分の1です。総ワークロードの比較では、DeepSeek V4 Flashは、それぞれの最大コンテキスト長においてMiniMax M2.7よりも **約100 GB** 多くない総VRAMを必要とします。

***

ソース & 正確な引用

**Source 1 (DeepSeek コンテキスト長)** URL: https://openrouter.ai/deepseek/deepseek-v4-flash 日付: 2026年4月 引用: "DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, and a 1M-token context window."

**Source 2 (DeepSeek コンテキスト長)** URL: https://llm-stats.com/models/deepseek-v4-flash-max 日付: 2026年4月 引用: "DeepSeek-V4-Flash-Max has a context window of 1,048,576 tokens for input and can generate up to 393,216 tokens of output."

**Source 3 (MiniMax コンテキスト長)** URL: https://aihub.caict.ac.cn/models/MiniMaxAI/MiniMax-M2.7 日付: 2026-04-16 引用: "MiniMax-M2.7 是MiniMaxAI 于2026 年3 月推出的旗舰级自进化Agent 大语言模型...支持200K 超长上下文"

**Source 4 (MiniMax コンテキスト長)** URL: https://cloudprice.net/models/minimax-m2-7-highspeed 日付: 2026-04-19 引用: "MiniMax M2.7 High Speed is MiniMax logo MiniMax's language model with a 205K context window"

**Source 5 (DeepSeek KVキャッシュサイズ)** URL: https://docs.bswen.com/blog/2026-04-24-deepseek-v4-1m-context/ 日付: 2026-04-24 引用: "With 9.62 GiB KV cache, you can actually run"(context は 1M-token コンテキスト機能を指す)

**Source 6 (DeepSeek KVキャッシュサイズ)** URL: https://dasroot.net/posts/2026/04/deepseek-v4-hybrid-attention-massive-contexts/ 日付: 2026-04-24 引用: "For example, at 1 million tokens, the KV cache size for DeepSeek V4 is estimated at 9.62 GiB with bf16 KV cache, which is 8.7x smaller than the"

**Source 7(MiniMax KVキャッシュ&重量サイズ)** URL: https://github.com/MiniMax-AI/MiniMax-M2.7/blob/main/docs/vllm\_deploy\_guide.md 日付: 2026-04-15 引用: "メモリ要件:重みが220 GB、1Mコンテキストトークンあたり240 GB"

**Source 8(MiniMax KVキャッシュ&重量サイズ)** URL: https://x.com/Web3Aible/status/2043213211944485042 日付: 2026-04-12 引用: "重みのメモリ:重みが220 GBに加えて、KV-cache用に1Mコンテキストトークンあたり約240 GB"

**Source 9(DeepSeek 重量サイズ)** URL: https://lushbinary.com/blog/deepseek-v4-self-hosting-guide-vllm-hardware-deployment/ 日付: 2026-04-24 引用: "FP4+FP8の混合精度で、V4-Flashは約158GBとなり、単一のH200ノードに収まります。"

**Source 10(DeepSeek 重量サイズ)** URL: https://deepinfra.com/deepseek-ai/DeepSeek-V4-Flash 日付: 2026年4月 引用: "重量(HuggingFace):160 GB"

投稿者: /u/9r4n4y
[link] [comments]