AI Navigate

MobileKernelBench: LLMはモバイルデバイス向けに効率的なカーネルを書けるか?

arXiv cs.LG / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • MobileKernelBench は、オペレータの多様性とフレームワーク横断の相互運用性を特徴とし、ホスト-デバイス検証パイプラインを自動化した包括的なベンチマークとして導入されました。
  • Mobile Neural Network (MNN) の CPU バックエンドでの評価は、現行の LLM がモバイルフレームワークのエンジニアリングの複雑さとデータ不足に苦戦しており、コンパイル失敗率が高く(>54%)、幻覚とデータ不足のため性能向上はごくわずかであることを示しています。
  • 著者らは、リポジトリを意識した推論と計画-実行パラダイムを備えたモバイルカーネルエージェント(MoKA)を提案します。
  • MobileKernelBench の検証において、MoKA はコンパイル成功率を 93.7% に達成し、生成されたカーネルの 27.4% がネイティブライブラリに対して有意なスピードアップを提供します。
大規模言語モデル(LLMs)はコード生成において顕著な能力を示してきたが、モバイルデバイス向けのカーネルを生成する潜在能力は依然として十分に探求されていません。本研究では、自動化されたカーネル生成の範囲をモバイル領域へ拡張し、中心的な問いを調査します。LLMs はモバイルデバイス向けに効率的なカーネルを書けるのか? 系統的な調査を可能にするため、MobileKernelBench を導入します。これはオペレータの多様性とフレームワーク横断の相互運用性を優先するベンチマークと、ホスト-デバイス間のギャップを橋渡しする自動化パイプラインを組み合わせた包括的な評価フレームワークです。これらのフレームワークを活用して、Mobile Neural Network(MNN)のCPUバックエンドで広範な評価を実施したところ、現行の LLM はモバイルフレームワーク特有のエンジニアリングの複雑さとデータ不足に内在する問題に苦戦していることが明らかになりました。標準モデルやファインチューニング済みのバリアントでさえ、コンパイル失敗率は高く(54%を超える)こと、幻覚とドメイン固有の根拠づけの欠如により性能向上はごく僅かです。これらの制約を克服するため、リポジトリを意識した推論と計画-実行パラダイムを備えたマルチエージェント・システム「Mobile Kernel Agent(MoKA)」を提案します。MobileKernelBench 上で検証された MoKA は、最先端の性能を達成し、コンパイル成功率を 93.7% に引き上げ、生成されたカーネルの 27.4% がネイティブライブラリを超える測定可能なスピードアップを実現します。