英語の関数記述をコンパイルして、llama.cppでローカル実行できる22MBのneural programにする

Reddit r/LocalLLaMA / 2026/4/16

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

研究者は、英語の関数仕様を入力すると「連続LoRAアダプタ＋離散的な擬似プログラム」からなる“neural program”を生成し、固定されたインタプリタをそのタスク用に適応させる仕組みを提案しています。
インタプリタ側（例：Qwen3 0.6BやGPT-2）は推論時に一切更新せず、タスク固有の挙動はコンパイルされたneural programのみで実現されます。
学習は（英語説明・入力・出力）の約1,000万例をGPT-5.2で合成したデータでエンドツーエンドに行われ、推論はllama-cpp-pythonによりローカル実行でき、タスクごとのLoRAを差し替えるだけで運用できます。
コンパイルされたプログラムはQ4_0形式で約22MB追加するだけで、Qwen3 0.6Bインタプリタ（約594MB）を共有しつつ複数タスクを切り替えられるのが特徴です。
FuzzyBenchの結果では、適応インタプリタが32Bプロンプトと同程度の性能を示す一方、タスクごとに再コンパイルが必要である点がトレードオフとして示されています。

Compile English function descriptions into 22MB neural programs that run locally via llama.cpp

私たちは、ニューラルコンパイラが平易な英語の関数説明を受け取り、「ニューラルプログラム」（連続的なLoRAアダプタと離散的な擬似プログラムの組み合わせ）を生成するシステムを構築しました。推論時には、これらが固定されたインタプリタを適応させて、指定されたタスクを実行します。これは「ファジー関数」の実装にとても適しています。ファジー関数とは、言語で説明するのは簡単だけれど、厳密で硬いルールで実装するのはつらい関数です（たとえばメッセージの緊急度を分類すること、さらには文中の動詞の数を数えること、あるいは私にとっては常に面倒な正規表現など）。

鍵となる考え方はこうです。インタプリタ（Qwen3 0.6B または GPT-2 124M）の重みは一切変更されません。タスク固有のふるまいは、コンパイルされたプログラムからのみ生まれます。コンパイラ自体は4BのLMで、仕様（spec）からアダプタの重みと擬似プログラムを生成します。gpt-5.2によって合成された10 million件のデータセット（英語の説明、関数入力、関数出力）でエンドツーエンドに学習しました。

推論は llama-cpp-python を通して完全にローカルで動作します。ベースモデルは共有され、私たちが実行時に簡単に差し替えられる「ニューラルプログラム」はLoRAアダプタです。Qwen3 0.6B のインタプリタは約594MBのベースモデル（GGUF Q6_K）で、各コンパイル済みプログラム（GGUF Q4_0）が約22MB追加されます。私のMac Miniではかなり速く動きます。

また、WebAssembly と wllama を使ってブラウザ上で動作する GPT-2 124M のインタプリタに適応するコンパイラも学習しました（約134MBのQ8_0ベース + 各Q4_0プログラムにつき約5MB）。興味深いことに、GPT-2のような古いモデルでも十分な性能が得られます。

FuzzyBenchでの結果では、適応された0.6Bインタプリタは（各新しいタスクごとに新たなコンパイルが必要になる代わりに）32Bモデルへのプロンプト入力と同等の水準でした：

PAW + Qwen3 0.6B インタプリタ: 73.4%
Qwen3 0.6B プロンプト: 9.8%
Qwen3 32B プロンプト: 68.7%

簡単に次のように使えます：

pip install programasweights import programasweights as paw f = paw.compile_and_load("Classify if this is urgent or not.") f("Need your signature by EOD") # "urgent"

デモ: https://programasweights.com

投稿者 /u/yuntiandeng
[link] [comments]