効率的な深度スケーリングのためのUniversal YOCO
arXiv cs.CL / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時(test-time)のスケーリングはLLMの推論性能を高めうる一方で、従来のTransformer推論戦略では、ループのオーバーヘッドや深さに伴うKVキャッシュの増加により、計算量を効率的にスケールできないと主張している。
- YOCO-U(Universal YOCO)を提案し、YOCOのデコーダ・デコーダ型アーキテクチャと再帰的計算を組み合わせることで、どちらか一方だけでは得られない能力(performance)と効率(efficiency)のトレードオフの改善を目指す。
- YOCO-Uは、パラメータ共有によって複数イテレーションを実行するUniversal Self-Decoderを用い、その一方でオーバーヘッドを制御するために、イテレーション数を浅い・効率的なattention層に制限する。
- 目的は、グローバルなKVキャッシュを一定に保ち、線形なプリフィリング(pre-filling)を実現することであり、限定的な追加コストのもとで部分的な再帰によって表現上の深さを高めることを狙っている。
- 実験結果として、YOCO-Uが一般ベンチマークおよび長コンテキストベンチマークで競争力を維持していることが報告されており、効率的attentionの設計と再帰を統合することは、スケーラブルなLLM推論への有望なアプローチであることを示唆している。




