それは「試す」と「学ぶ」の間みたいなものです。
自分のコードでRTX 4050上にRWKV v6モデルを学習してみました。batch_size=2でgradient_accumulation=4(実効バッチサイズ=2*4=8)として、50kステップ以上学習しました。到達したのは50 PPL(RWKV v6、~192.8Mモデル)で、これ以上はどうしても下がりませんでした。lrやtime_decay lr(RWKVのattention置き換え)なども変えましたが、良くなるどころか悪化するか、何も変わりませんでした……そして次に……gradient_accumulationを32に設定してみました。すると、1つの「epoch」(コード内では擬似epochで、=10kステップ)後に40 PPLまで下がりました。次に64に変えて、3 epoch試してみました。するとPPLがびっくりするくらい20 PPLまで落ちました。このモデルは4日間ぶっ通しで学習しました。そういうことを全部やったときだけ、実効バッチサイズが64(そして128)の状態で学習してから約2〜3時間ほどで、あれほど極端なPPLの低下が得られました……
IDKですが、この投稿は低努力かもしれません。でも、学習している人みんなへのアドバイスとしてはまだ自分の意見です……少なくとも、学習データからの生成系LM(そしてファインチューニングにも役に立ちます!)に関しては!
[link] [comments]



