広告

[R] BDH(Dragon Hatchling)アーキテクチャに対するヘッブ型高速重み書き戻しの初のオープンソース実装

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事は、先行論文で述べられていたもののこれまで公に実装されていなかった、BDH(Dragon Hatchling)アーキテクチャ向けのヘッブ型高速重み書き戻しの初めてのオープンソース実装を紹介します。
  • ストーリーでは、推論時の仕組みとして、スパースな活性化コードをアドレスとして用い、デコーダの重みを書き換えるメカニズムを説明し、その挙動がトークン位置間で一貫していることを報告します。
  • 著者は、性能を劣化させずに高速重みを低速重みに書き戻せるかを検証するための「consolidation(統合)」実験を追加し、その結果として、密な書き戻しは精度を大きく低下させることを見いだします。
  • 選択的書き戻し—エピソード活動量に基づいて上位10%の行のみを更新—を行うことで、統合を行わない対照実験に近い性能を維持できます。
  • この取り組みは、約2,500万パラメータのモデルを用いた合成n-back連想想起タスクで検証されており、H100で独立した実行と複数のシードが含まれています。著者は、自然言語での検証が欠けているといった制限も述べており、次のステップとしてFineWeb-Eduを用いることを提案しています。

BDH(Dragon Hatchling)論文(arXiv:2509.26507)は、推論中にモデルの重みが更新されるヘッブ型のシナプス可塑性メカニズムを説明しています。公開されたコードでは、共活性化の積を計算して破棄しており、ライトバックは公には実装されていませんでした。私はそれを実装しました。

モデルは、スパースな活性化コードをアドレスとして用い、推論中に自分自身のデコーダ重みを書き換えます。同じトークンは、位置に関係なく常に同じコードを生成します。

統合(v2): エピソードの高速重みが機能することが分かった次の問いは、信号を壊さずにそれらを低速重みへ書き戻せるかどうかです。密なライトバックはそれを劣化させます。選択的ライトバック(エピソード活動に基づく行上位10%)なら、ほとんど保たれます:

n2 n4 n8
Control(統合なし) 97.2% 95.5% 97.4%
Dense writeback 75.4% 68.1% 89.8%
Selective(rowtop10) 97.5% 97.1% 96.2%

独立したハードウェア(H100)とシードで検証済みです。対照ベンチマークは91〜95%の範囲にとどまります。

基本メカニズム: ライトバックなしのベースラインは1%(偶然)です。最良のヘッブ型実行は、n2/n4/n8でそれぞれ99.0 / 98.0 / 97.5でした。独立したシード間で再現できています。5つのバグを解決する必要がありました——すべてREADMEに記載しています。

制限: これは合成のn-backの連想想起に対するメカニズム検証です。25Mパラメータモデル。自然言語では検証されていません。次のステップはFineWeb-Eduです。

リポジトリ(Apache 2.0): https://github.com/fleeb83/bdh-fast-weights

独立研究者で、ラボはありません。質問があれば何でもお答えします。

submitted by /u/fleebrun83
[link] [comments]

広告