TCL：継続学習による高速かつ効率的なクロスハードウェア向けテンソルプログラム最適化の実現

arXiv cs.LG / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、TCLというコンパイラフレームワークを提案し、大規模なオフライン調整データセットに依存することなく、異なるCPU/GPUハードウェア間でのテンソルプログラム最適化の転移性を高めつつ高速化することを目指す。
TCLはRDU Samplerを用いて、能動学習により代表性・多様性・不確実性を同時に最適化し、約10%のテンソルプログラムだけを選択することでデータ収集コストを削減する。
長距離にわたるスケジュール依存関係を捉えるための、新しいMambaベースのコストモデルを導入し、パラメータ化を抑えた軽量なシーケンスモデリングにより、精度と効率のトレードオフが良好になるよう設計する。
TCLはまた、連続的な知識蒸留アプローチを採用し、従来のマルチタスク学習でよくあるパラメータ爆発やデータ依存といった問題を回避しながら、最適化知識をハードウェアプラットフォーム間で段階的に転送する。
実験結果から、TCLはチューニング速度を大幅に改善（CPUで平均16.8倍、GPUで12.48倍）し、さらにTenset-MLPと比べて推論レイテンシをわずかに削減することが示される（CPUで1.20倍、GPUで1.13倍）。

The Batch

Anthropic News

日経XTECH

日経XTECH

Dev.to