ProbeLogits: AIネイティブOSのためのカーネルレベルLLM推論プリミティブ

arXiv cs.LG / 2026/4/15

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

ProbeLogitsは、単一のフォワードパスを実行し、特定のトークンのロジットを読み取ることでエージェントの行動を安全／危険として分類する、学習パラメータを一切持たないカーネルレベルのLLM推論プリミティブとして導入されます。
この手法では、パラメータαをデプロイ時のキャリブレーション用の調整ノブとして用い、ガバナンス挙動をチューニングします（例：特権操作のリコールを最大化するためにより厳格に設定し、会話エージェントのためにより緩く設定して精度を最大化する）。
260のプロンプトと複数のアクションカテゴリ（敵対的攻撃を含む）からなるOSアクションベンチマークで、4-bit量子化した汎用7Bモデルを用いて、高い性能を報告しています（F1=0.980、Precision=1.000、Recall=0.960）。
ToxicChatでは、α=1.0でF1=0.790を達成し、α=0.5でF1=0.837まで改善し、学習パラメータをゼロで、Llama Guard 3のF1の約89%に到達します。
Anima OS（ベアメタルのx86_64 Rust OS）に実装されており、著者らは、WASMサンドボックス境界の下に執行が位置することで回避が難しくなると主張し、プロセス状態としてKV-cacheを用いてチェックポイント／リストア／フォークのような操作を可能にすることも議論しています。

要旨: 内部でLLM推論を実行するOSカーネルは、いかなるテキストが生成される前でも、ログit分布（logit distributions）を読み取ることができ――それを統治（governance）の基本原理（primitve）として機能させることができます。私は、学習されたパラメータをゼロにしたカーネルレベルの操作であるProbeLogitsを提示します。これは1回のフォワードパスを実行し、特定のトークンのlogitを読み取ることで、エージェントの行動を安全または危険として分類します。260プロンプトのOSアクションベンチマーク（敵対的攻撃を含む9カテゴリ）において、ProbeLogitsは、4-bit量子化した汎用の7Bモデルを用い、F1=0.980、Precision=1.000、Recall=0.960を達成します。ToxicChat（人手で注釈された実会話1,000件）では、デフォルトのキャリブレーション強度 $alpha$ =1.0でF1=0.790を達成し、 $alpha$ =0.5ではF1=0.837に改善します――学習パラメータゼロでLlama Guard 3のF1~0.939の89%に相当します。主要な設計上の貢献は、学習されたハイパーパラメータではなくデプロイ時のポリシーノブとして機能するキャリブレーション強度 $alpha$ です。 $alpha$ を調整することで、OSは特権操作に対して厳格なポリシーを強制できます（ $alpha geq 0.8$ 、recallを最大化）し、会話エージェントに対しては緩和されたポリシーを適用できます（ $alpha$ =0.5、precisionを最大化）。コンテキストに基づくキャリブレーションにより、独自ベンチマークでの精度は64.8%から97.3%へと向上します。私は、80,400行のRustで書かれたベアメタルx86_64 OSであるAnima OS内にProbeLogitsを実装しました。エージェントの行動はカーネルを介したホスト関数を通過しなければならないため、ProbeLogitsの強制（enforcement）はWASMサンドボックス境界より下で動作し、アプリケーション層の分類器よりも回避が著しく難しくなります。各分類のコストは7Bで65msであり、行動ごとの統治に十分な速さです。また、KVキャッシュをプロセス状態として扱うことで、従来のプロセス管理に類似したチェックポイント、リストア、フォーク操作が可能になることも示します。私の知る限り、LLMのlogitベクトルをOSレベルの統治プリミティブとして公開する先行システムは存在しません。