[R] BDH（Dragon Hatchling）アーキテクチャに対するヘッブ型高速重み書き戻しの初のオープンソース実装

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この記事は、先行論文で述べられていたもののこれまで公に実装されていなかった、BDH（Dragon Hatchling）アーキテクチャ向けのヘッブ型高速重み書き戻しの初めてのオープンソース実装を紹介します。
ストーリーでは、推論時の仕組みとして、スパースな活性化コードをアドレスとして用い、デコーダの重みを書き換えるメカニズムを説明し、その挙動がトークン位置間で一貫していることを報告します。
著者は、性能を劣化させずに高速重みを低速重みに書き戻せるかを検証するための「consolidation（統合）」実験を追加し、その結果として、密な書き戻しは精度を大きく低下させることを見いだします。
選択的書き戻し—エピソード活動量に基づいて上位10%の行のみを更新—を行うことで、統合を行わない対照実験に近い性能を維持できます。
この取り組みは、約2,500万パラメータのモデルを用いた合成n-back連想想起タスクで検証されており、H100で独立した実行と複数のシードが含まれています。著者は、自然言語での検証が欠けているといった制限も述べており、次のステップとしてFineWeb-Eduを用いることを提案しています。

BDH（Dragon Hatchling）論文（arXiv:2509.26507）は、推論中にモデルの重みが更新されるヘッブ型のシナプス可塑性メカニズムを説明しています。公開されたコードでは、共活性化の積を計算して破棄しており、ライトバックは公には実装されていませんでした。私はそれを実装しました。

モデルは、スパースな活性化コードをアドレスとして用い、推論中に自分自身のデコーダ重みを書き換えます。同じトークンは、位置に関係なく常に同じコードを生成します。

統合（v2）： エピソードの高速重みが機能することが分かった次の問いは、信号を壊さずにそれらを低速重みへ書き戻せるかどうかです。密なライトバックはそれを劣化させます。選択的ライトバック（エピソード活動に基づく行上位10%）なら、ほとんど保たれます：