DRTriton: Tritonカーネル生成のための大規模合成データ強化学習

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMを学習させてPyTorchの参照コードを最適化されたTritonカーネルへ変換し、実行時にCUDAとしてコンパイルするためのフレームワークであるDRTritonを提案する。これは生成AIエンジニアリングにおける重要な課題、すなわち効率的なCUDAカーネル作成を対象としている。
DRTritonは、演算子空間を偏りのない一様サンプリングで幅広くカバーし、タスクの難易度を制御することを目的とした合成データ戦略（CSP-DAG）を用いる。
カリキュラム型の強化学習と、報酬を分離した設計（decoupled rewards）を適用し、変換成功率と推論速度を共同で改善する。さらに、ランタイム性能を一層高めるために、テスト時探索手法を追加する。
合成データのみで学習したにもかかわらず、DRTritonは、熟練エンジニアでも難しいケースを含む、困難な実世界のCUDAカーネルに対して良好に汎化できると報告されている。
実験では、DRTriton-7BがKernelBench Level 2の92%で高速化を達成し、GPT-5.2（23%）およびClaude-Sonnet-4.5（19%）を大幅に上回った。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to