わずか10ビットで俳句からオーパスへ:LLMが巨大な圧縮の伸びを解き放つ

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLMが生成したテキストを、不可逆(ロスレス)および不可逆(ロッシー)の両設定でどのように圧縮できるかを分析し、「圧縮—計算フロンティア」を特定する。これは、圧縮率を高めるほどより多くの計算が必要になるという関係を示す。
  • ロスレス領域では、ドメイン適応したLoRAアダプタを用いることで、基盤モデルのみを使う場合と比べて、LLMベースの算術コーディングの有効性をおおよそ2倍にできる。
  • ロッシー圧縮では、著者らは、まずLLMが簡潔な言い換えを生成し、その後に算術コーディングを行うワークフローを提案している。これにより圧縮比は約0.03となり、元の応答をそのまま圧縮する場合に比べて約2倍の改善が得られる。
  • 本研究では、「質問応答」(QA)を導入する。これは、強力なモデルに対して小さなモデルがはい/いいえの質問を行うインタラクティブなプロトコルで、回答1回につき1ビットを送信する。これにより、非常に小さな表現サイズで能力ギャップの大部分を回復でき、圧縮比は約0.0006〜0.004に達する。
  • 数学・科学・コードの8つのベンチマークにわたって、10個の二値質問により、小さなモデルと大きなモデルの能力差のうち約23%〜72%を標準タスクで回復し、より難しいタスクでは7%〜38%を回復する。さらに、従来のLLM圧縮をサイズ効率の観点で100倍以上上回る。

Abstract

本研究では、損失なしおよび損失ありの両方の状況下で、LLMが生成したテキストの圧縮を調べ、より多くの計算を代償として、より多くの圧縮が可能となる圧縮—計算フロンティアを特徴づける。損失なし圧縮では、ドメインに適応したLoRAアダプタにより、基底のLLM単体で行う圧縮よりもLLMベースの算術符号化を2倍改善できる。損失あり圧縮では、まずモデルに簡潔な書き換えを促し、その後に算術符号化を適用することで、圧縮率はおよそ0.03に達し、元の応答を圧縮する場合に比べて2倍の改善となる。 さらに「質問応答による圧縮(Question-Asking compression, QA)」を導入する。これはゲーム『Twenty Questions(20の質問)』に着想を得た、対話的な損失ありプロトコルである。小さなモデルが、より強力なモデルに対してはい/いいえの質問を反復的に行うことで、その応答を逐次的に洗練させ、各回答につきちょうど1ビットを転送する。数学・科学・コードにまたがる8つのベンチマークにおいて、10個の二値質問により、標準ベンチマーク上では小型モデルと大型モデルの能力ギャップの23%から72%を回復し、より難しいベンチマークでは7%から38%を回復できる。圧縮率は0.0006から0.004であり、これは先行研究のLLMベース圧縮(Deletang et al., 2024)より100倍以上小さい。つまり、対話的プロトコルは、完全な応答を送信するよりもはるかに効率的に知識を伝達できることを示唆する。