自己回帰チェーンを打ち破る:LLMベース属性値抽出のための高並列デコーディング

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 属性値抽出(AVE)では、同一の入力文脈から複数の独立した出力系列を生成する必要がある場合があるが、通常の自己回帰デコーディングはトークン生成を逐次に行うため遅い。
  • 論文は、バッチ間の並列化や共用メモリ/計算を活用してオフラインLLMデコーディングを高速化するデコーディング手法「Hyper-Parallel Decoding(HPD)」を提案する。
  • HPDは、位置IDの操作によりトークン生成を順不同にできることで効率を高め、各プロンプト内での独立した値生成を並列化できる。
  • AVEでの実験では、属性値ペアが条件付きに独立であることが示され、さらに1つのプロンプトに複数文書を積み重ねることで、1プロンプトあたり最大96トークンの並列デコードが可能になる。
  • 出力品質を損なうことなく、推論コストと総推論時間を最大13.8倍削減できるほか、独立した出力構造を持つ他のシナリオにも理論上適用できる可能性がある。

Abstract

属性値抽出(AVE)のような一部のテキスト生成タスクでは、同一の文書コンテキストから複数の独立したシーケンスをデコードする必要があります。標準的な自己回帰デコードは、その逐次性ゆえに遅い一方で、出力シーケンス同士の独立性は並列化の機会を提供します。本稿では、共有メモリとバッチ間の計算の両方を活用することでオフラインデコードを高速化する、新しいデコードアルゴリズムであるHyper-Parallel Decoding(HPD)を提案します。HPDは位置IDの操作によってトークン生成を順不同に可能にし、大幅に効率を高めます。AVEに関する実験では、属性値のペアが条件付きで独立であることが示され、各プロンプト内で値生成を並列化できます。さらに、1つのプロンプトに複数の文書を重ね合わせることで、1プロンプトあたり最大96トークンまで並列デコードできます。HPDはすべてのLLMで動作し、出力品質を損なうことなく推論コストと総推論時間の両方を最大13.8X削減でき、業界におけるAVEタスクでは数十万ドルの節約につながる可能性があります。属性抽出のために設計されていますが、HPDはAVEドメインに固有の仮定を何ら行わず、理論上、独立した出力構造を持つ他のシナリオにも適用可能です。