要旨: およそ48個の実行検証済みHumanEval学習解を用い、再帰層ごとに単一の初期状態行列をチューニングし、推論オーバーヘッドをゼロにしたところ、HumanEvalにおいてLoRAより+10.8 pp(p < 0.001)上回りました。私たちはこの手法をS0チューニングと呼びます。S0チューニングは、すべてのモデル重みを凍結したまま、再帰層ごとに1つの状態行列を最適化します。Qwen3.5-4B(GatedDeltaNetハイブリッド)では、S0チューニングによりグリーディパスpass@1が+23.6 +/- 1.7 pp(10シード)改善します。FalconH1-7B(Mamba-2ハイブリッド)では、S0は71.8% +/- 1.3、LoRAは71.4% +/- 2.4(3シード)に到達し、このサンプルサイズでは統計的に有意な差はありませんが、重みのマージは不要です。MATH-500(+4.8 pp、p = 0.00002、8シード)およびGSM8K(+2.8 pp、p = 0.0003、10シード)でのドメイン横断転移は有意です。一方でテキストからSQLへのベンチマーク(Spider)では転移が見られず、軌道(トラジェクトリ)誘導メカニズムと整合します。純粋なTransformer(Qwen2.5-3B)に対するプレフィックスチューニング制御は、テストした9つの構成すべてで性能を-13.9 pp低下させます。Qwen3.5では、ステップごとの状態オフセット変種が+27.1 ppを達成し、S0とLoRAの両方を上回りますが、ステップごとの推論コストがかかります。以上をまとめると、再帰的な状態初期化は、検証付きの教師データが乏しい場合におけるハイブリッド言語モデルに対する、強力で推論オーバーヘッドゼロのPEFT(パラメータ効率的微調整)面(サーフェス)であることが示されます。チューニング済み状態は約48 MBのファイルです。タスク切り替えでは、重みのマージやモデルの再読み込みは不要です。コードとライブラリ: https://github.com/jackyoung27/s0-tuning。
S0チューニング:ハイブリッド・リカレント-アテンション・モデルのゼロオーバーヘッド適応
arXiv cs.CL / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- arXivの論文は、「S0チューニング」という、パラメータ効率の高い微調整手法を導入する。これは、リカレント層ごとに1つの状態行列を最適化し、元のモデル重みはすべて凍結したままにしつつ、推論時のオーバーヘッドをゼロとして実現する。
- 実行・検証されたHumanEvalの学習解(約48件)だけを用いて、S0チューニングはLoRAをHumanEvalで+10.8ポイント上回り、さらにQwen3.5-4BやFalconH1-7Bのような特定のハイブリッドモデルではより大きな改善を達成する。
- ハイブリッド・リカレント-アテンション・モデルに対して、S0チューニングはQwen3.5-4Bでグリーディなpass@1を+23.6±1.7 pp改善し、FalconH1-7Bでは71.8%±1.3に到達する。報告されたサンプル数では、LoRAと統計的に有意な差が見られない。
- MATH-500(+4.8 pp)やGSM8K(+2.8 pp)で意味のあるクロスドメイン転移が示されるが、SpiderのテキストからSQLでは見られない。これは、転移可能な構文や意味を学習するのではなく、モデルの軌道を制御(steer)するためだ、という説明と整合する。
- 対照実験では、純粋なTransformerに対する同様のプレフィックス・チューニングは性能を低下させる一方、1ステップごとの状態オフセット変種はより良い結果を出せるが、その代わりに1ステップ当たりの推論オーバーヘッドを要する。チューニング済み状態のサイズは約48 MBで、タスク切替に際して重みのマージやモデルの再ロードは不要である。




