Qwen 3.5の「Weight Drift」修正は可能?自動ツール+決定打に欠けるNIAH結果

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • コミュニティメンバーが、Qwen 3.5の「weight drift」を修復するために、特定のssm_conv1d.weightテンソルをスケーリングするオープンソースのアプローチを提案しており、当初は誤りが大幅に減ると報告されていた。
  • 著者は、中央値絶対偏差(MAD)のZスコアを用いて修復を標準化する自動の検出・修復ツールを作成したが、最初のNeedle-in-a-Haystack(125kコンテキスト)テストでは、元のBF16モデルと修復後モデルの間で性能差は見られなかった。
  • 著者は、報告されていた「context melt-down(コンテキスト崩壊)」現象が観測されなかったと述べており、この修正がNIAHでは測定されない、より限定された失敗モード(例:論理/コード生成の問題)を対象としている可能性を示唆している。
  • PPL、HumanEval、EQ-Benchなど他のベンチマークによるより広範な検証を求めており、修復に関する数式やスクリプトのロジックの監査にも協力を求めている。
  • この投稿は、知見の裏取りと有用性の改善を行うための共同作業の呼びかけとして位置づけられており、信頼できるコミュニティツールへと磨き込むことを目指している。
Qwen 3.5 "Weight Drift" Fix? Automated Tool + Inconclusive NIAH Results

背景

u/EvilEnginerによるこのスレッドを追っていました。そこでは、特定の ssm_conv1d.weight テンソルをスケーリングすることで、誤りが90%減ると主張しています。

私の検証

この結果を確認できるのか、そしてこの修正をコミュニティのための標準的で透明性のあるユーティリティにできるのかを確かめたいと思いました。u/EvilEnginer が最終ブロックにおけるテンソルのスケールについて共有してくれた知見に基づき、このドリフトを検出して修復するための独立したツールを書きました。ただし、最初のテストでは結論が出ません:

- NIAH(Needle In A Haystack)@ 125k コンテキスト:元のBF16版も、私が修復した版も、まったく同一のスコアで通過しました。

元のスレッドで説明されていた「コンテキストが溶ける(melt-down)」現象は確認できませんでした。これは、この修正が、NIAHが捉えられない(たとえばロジックのループやコード生成のような)より特定の失敗モードを狙っている可能性を示唆しています。

ツール&協力のお願い

検出(Median Absolute Deviation の Z-score を使用)と修復ロジックを自動化しました。コミュニティの方に u/EvilEnginer の調査結果を裏取りし、信頼できるオープンソースとしてこれらの修復を適用する方法を洗練させるために協力してもらえたら嬉しいです。

私は十分な計算資源がないため、次のことができればと考えています:

  1. Before/After のベンチマーク:PPL、HumanEval、または EQ-Bench の環境がある方は、元のバージョンと修復後のバージョンの間にデルタがあるか確認できますか?

  2. ロジック/スクリプトの確認:正直なところ、これは私の知識の限界に近づいています。私の数学に何か抜けがあるのでしょうか?それとも、スクリプトが何かを正しく扱えていないのでしょうか?

submitted by /u/Decivox
[リンク] [コメント]