効率的な深度スケーリングのためのUniversal YOCO

arXiv cs.CL / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論時（test-time）のスケーリングはLLMの推論性能を高めうる一方で、従来のTransformer推論戦略では、ループのオーバーヘッドや深さに伴うKVキャッシュの増加により、計算量を効率的にスケールできないと主張している。
YOCO-U（Universal YOCO）を提案し、YOCOのデコーダ・デコーダ型アーキテクチャと再帰的計算を組み合わせることで、どちらか一方だけでは得られない能力（performance）と効率（efficiency）のトレードオフの改善を目指す。
YOCO-Uは、パラメータ共有によって複数イテレーションを実行するUniversal Self-Decoderを用い、その一方でオーバーヘッドを制御するために、イテレーション数を浅い・効率的なattention層に制限する。
目的は、グローバルなKVキャッシュを一定に保ち、線形なプリフィリング（pre-filling）を実現することであり、限定的な追加コストのもとで部分的な再帰によって表現上の深さを高めることを狙っている。
実験結果として、YOCO-Uが一般ベンチマークおよび長コンテキストベンチマークで競争力を維持していることが報告されており、効率的attentionの設計と再帰を統合することは、スケーラブルなLLM推論への有望なアプローチであることを示唆している。

Abstract

推論時スケーリング（test-time scaling）の台頭は、大規模言語モデル（LLM）の推論力とエージェント的な能力を目覚ましく押し上げてきました。しかし、標準的なTransformerは、通常のループ戦略が高い計算オーバーヘッドを招き、さらにモデルの深さに応じて膨張するKVキャッシュのせいで、推論時の計算量を効率よくスケールするのが難しいのが現状です。私たちは、YOCOデコーダ・デコーダアーキテクチャに再帰的計算を組み合わせるUniversal YOCO（YOCO-U）を提案します。これにより、単独で行う場合のいずれよりも大きな相乗効果が得られます。YOCOフレームワークに基づいて、YOCO-Uはパラメータ共有によって複数の反復を行うUniversal Self-Decoderを実装し、反復プロセスを浅く効率的な注意（attention）層に閉じ込めます。この組み合わせは、YOCO単体や再帰単体では達成できない、有利な能力効率のトレードオフをもたらします。YOCOアーキテクチャは一定のグローバルKVキャッシュと線形のプリフィリングを提供し、一方で部分的な再帰は、限定的なオーバーヘッドで表現の深さを強化します。これらにより、YOCO-Uは効率的な推論を維持しながら、トークンの有用性とスケーリング挙動を改善します。実験結果は、YOCO-Uが一般ベンチマークおよび長文コンテキストのベンチマークにおいて非常に競争力が高いことを裏付けており、効率的な注意アーキテクチャと再帰的計算の統合が、スケーラブルなLLMに向けた有望な方向性であることを示しています。