LLM-jp-4 32B Thinking を本家学習コーパスでキャリブレーションして量子化したGGUFを公開しました

Zenn / 5/3/2026

📰 NewsSignals & Early TrendsTools & Practical UsageModels & Research

共有:

Key Points

鈴村研究室が LLM-jp-4 32B Thinking を本家学習コーパスでキャリブレーションし、その結果に基づく量子化モデル（GGUF）を公開した。
「Thinking」系の32Bモデルを量子化することで、推論時の計算・メモリ負荷を下げ、ローカル実行や軽量環境での利用を後押しする狙いがある。
キャリブレーションを学習コーパスで行うことで、量子化に伴う精度劣化を抑えるための手当てが示されている。
公開されたGGUFは、対応ランタイムでの導入により研究・開発者が手元検証を進めやすくなる可能性がある。

この記事についてこんにちは、東京大学鈴村研究室でインフラエンジニアとしてお手伝いさせていただいている、福田と申します。本記事では、LLM-jpプロジェクトのllm-jp-4-32b-a3b-thinkingを本家事前学習コーパスllm-jp-corpus-v4でimatrixキャリブレーションし、自前で量子化したGGUFをHugging Faceで公開しましたので、その特徴と使い方をご紹介します。はじめに LLM-jpプロジェクトが公開しているllm-jp/llm-jp-4-32b-a3b-thinking(総32B /アクティブ3BのMoE、思考連鎖出力対応)をQ4_K_...

Continue reading this article on the original site.

Read original →