実験：Olmo 3 7B Instruct Q1_0

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

低ビット量子化（Bonsaiの1-bit形式）を目指し、OLMo-3 7B Instruct を量子化する試行では、実行可能性の高い手法として「量子化 aware distillation」を採用した。
4×B200 GPUで約12時間学習したが、予算の都合で途中停止した結果、短いシーケンスでは英語出力は可能でも、反復ループに陥りやすく文脈追跡もほぼできず実用には至らなかった。
蒸留の実装として distilkit をフォークし、GGUFへのエクスポート手順を組み込んだうえで、短いDPOステップを追加して軽微な改善（または判別困難）を得た。
実行には、CUDAバックエンドがllama.cppに未実装のためBonsaiのllama.cppフォーク（PrismML-Eng/Bonsai-demo）を使用する必要があると述べている。
distillationコードは DistillKit リポジトリを参照しており、ロジックやバグの可能性（AI生成である可能性）にも注意を促している。

OLMo-3 7B Instruct を Bonsai の 1-bit フォーマットに量子化しようとしてみました。いくつかのアプローチを調べた結果、量子化を意識した蒸留（quantization aware distillation）が最も現実的な、使える 1-bit モデルを得るための道だと思い至りました。

モデルは 4× B200 GPU で約 12 時間学習しました。残念ながら、予算の制約で打ち切らざるを得ませんでした。現時点では英語を生成し、短いシーケンスであればいくらか基本的な出力もできますが、一般的には使い物になりません。すぐに反復ループに陥り、コンテキストの追跡もほとんどできていません。これらの問題は、より多くの学習時間とより良いデータセット選定があれば解決していたと思います。私は間違ったものを選んでしまいました。

https://preview.redd.it/zm28xup2ouug1.jpg?width=2156&format=pjpg&auto=webp&s=c43b5f133acf36363ea8f5814cbd92a5d2b0fa34

蒸留のために distilkit ライブラリをフォークして、いくつか追加を行いました。使うのは簡単で、このリポジトリには GGUF へ直接エクスポートするためのスクリプトが含まれています。また、その後にごく短い DPO ステップも実行しました。小さな改善があったのかもしれませんが、あるいは大差なかったかもしれず、正確には分かりません。

実行するには、CUDA バックエンドがまだ llama.cpp に追加されていないため、PrismML-Eng/Bonsai-demo の Bonsai llama.cpp フォークを使う必要があります。蒸留コードは https://github.com/cturan/DistillKit を参照してください（すべて AI が書いたものであるため、見えているロジックの幻覚やバグが含まれている可能性があります）。質問があれば LLM に聞いてください lol。

submitted by /u/butlan
[link] [comments]