OneComp: 生成AIモデル圧縮のためのワンライン・レボリューション

arXiv cs.AI / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この記事は、メモリ、レイテンシ、ハードウェアコストといった現実的な制約下で実用化することを目的とした、ポストトレーニング型の生成AIモデル圧縮のためのオープンソースフレームワーク「OneComp」を紹介する。
OneCompは、モデルIDと対象ハードウェアを受け取ると、モデルを自動的に検査し、混合精度の割り当てを計画し、層単位の圧縮からブロック単位、さらにグローバルな改良までを段階的（プロトレッシブ）に量子化していく。
中核となる設計思想は、最初の量子化チェックポイントを「デプロイ可能なピボット（拠り所）」として用いることであり、その後の段階が常に同じモデルを一貫して改善し、より多くの計算資源を投資するほど品質が向上していく。
本研究は、圧縮実務におけるフラグメンテーション（断片化）問題に取り組む。すなわち、量子化アルゴリズム、精度予算、キャリブレーション、ハードウェア実行レジームといった異種の専門的ワークフローを、再現可能でリソースに適応したパイプラインへと変換することである。

Abstract

基盤モデルの展開は、メモリ使用量、レイテンシ、そしてハードウェアコストによってますます制約されるようになっています。事後学習による圧縮は、モデルパラメータの精度を大きく損なうことなく低下させることで、これらのボトルネックを緩和できます。しかし実務上の実装は、量子化アルゴリズムの断片化した状況、精度予算（precision budget）、データ駆動型のキャリブレーション戦略、そしてハードウェア依存の実行レジームを使い分けながら進める必要があるため、依然として難しいままです。本稿では、専門家の作業手順を再現可能で、リソースに適応したパイプラインへと変換するオープンソースの圧縮フレームワークである OneComp を紹介します。モデル識別子と利用可能なハードウェアが与えられると、OneComp はモデルを自動的に精査し、混合精度の割り当てを計画し、レイヤ単位の圧縮からブロック単位の改良、さらにグローバル改良までの段階的量子化ステージを実行します。重要なアーキテクチャ上の選択として、最初に得られた量子化チェックポイントをデプロイ可能な“ピボット”として扱う点が挙げられます。これにより、その後の各ステージが同一のモデルを改善し続け、より多くの計算資源を投じるほど品質が向上することが保証されます。最先端の圧縮研究を、拡張可能で、オープンソースで、かつハードウェアに配慮したパイプラインへと変換することで、OneComp はアルゴリズム上の革新と、生産レベルのモデル展開とのギャップを埋めます。