CircuitProbe: 安定性ゾーン検出によるトランスフォーマにおける推論回路の予測

arXiv cs.AI / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、CircuitProbeという手法を提案し、活性化統計からトランスフォーマ・モデル内の「推論回路」を5分未満（CPU上）で予測できるとする。各モデルあたり約25GPU時間を要する高コストな総当たり探索に代わるものとしている。
CircuitProbeは、推論回路を2種類に分類する。表現変化の導関数から検出される初期層の「安定性回路」と、異常スコアリングによって特定される後期層の「大きさ回路」である。
6つのアーキテクチャにまたがる9つのモデル（2025年のモデルを含む）において、著者らは、CircuitProbeのトップ予測の回路位置が最適な回路と一致するか、検証されたすべてのケースで2層以内の範囲に収まると報告している。
Qwen 2.5ファミリーに対するスケーリング実験では、検出された回路を複製することで3B未満のパラメータ規模のモデルの性能が一貫して向上する一方、7B+モデルでは性能が低下することが示されており、この手法は主に小規模LLMに有効であることを示唆している。
この方法はデータ効率が高く（校正用の例は最大10件程度でよい）、複数言語（英語、ヒンディー語、中国語、フランス語）にわたって予測が安定していることが確認されている。

要旨: トランスフォーマー言語モデルには局所化された推論回路が含まれており、推論を、推論時に複製することで改善する連続した層ブロックです。これらの回路を見つけるには現在、モデルごとに25 GPU時間を要する総当たり探索が必要です。私たちは CircuitProbe を提案します。これは、CPU上で5分未満という時間で活性化統計から回路の位置を予測し、3〜4桁のオーダーの高速化を実現します。推論回路には2種類があることを見出します。すなわち、表現変化の導関数によって検出される初期層の安定性回路と、異常スコアリングによって検出される後期層の大きさ（マグニチュード）回路です。CircuitProbe を、6つのアーキテクチャにまたがる9つのモデル（2025年モデルを含む）で検証し、すべての検証済みケースにおいて、CircuitProbe のトップ予測が最適な回路から一致するか、あるいは2層以内にあることを確認します。Qwen 2.5 ファミリーに対するスケーリング実験では、層複製は3B未満のパラメータのモデルでは一貫して有益である一方、7B以上のモデルでは性能が低下することが明らかになりました。これにより、小規模言語モデルに対する実用的なスケーリング手法であることが示されます。CircuitProbe は最大でも10個のキャリブレーション例しか必要とせず、その予測は英語、ヒンディー語、中国語、フランス語の間で安定しています。

Black Hat Asia

AI Business

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

UnitreeのIPO

ChinaTalk

GIGABYTEのノートPCに内蔵されたAIコーディングアシスタントをご存じですか？GiMATE Coderに出会おう

Dev.to

CircuitProbe: 安定性ゾーン検出によるトランスフォーマにおける推論回路の予測

要点

関連記事

Black Hat Asia

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

UnitreeのIPO

GIGABYTEのノートPCに内蔵されたAIコーディングアシスタントをご存じですか？GiMATE Coderに出会おう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer