みなさんこんにちは。私は、これまでのこのサブレディットで以前投稿した内容のとおり、歴史的データだけを用いてモデルを完全に学習するというプロジェクトに取り組んでいます。前回の学習実行はNanochatを使って行い、最初のモデルの事前学習(pretraining)とSFTには非常にうまくいったのですが、nanochatは立ち上げるためには素晴らしい一方で、相互運用性(interoperability)という点ではあまり良くないことが分かってきました。nanochatをtransformersと互換性のあるものにするための小さな取り組みはいくつか行われていますが、(私が学習に使った)最新バージョンのnanochatでは、transformersと互換性のあるモデルが生成されません。
そこで次の学習実行は、Llamaアーキテクチャとtransformersの「trainer」クラスを使おうと考えています。事前学習用に、もっと大規模なデータセットを用意しました。そして、このプロジェクトをオープンソース化して、transformersを使って人々がアクセスできるようにしたいです。とはいえ、nanochatには(自動スケーリングのような—depthパラメータ—利点があります)。そのうえで、このシナリオにおいてLlamaは最適な潜在的アーキテクチャなのでしょうか?それとも、ここで使えるより良い選択肢があるのでしょうか?それとも結局、またNanochatを使い、別側でnanochatからHFへのエクスポート用スクリプトを作り上げられることを期待するべきでしょうか?
[link] [comments]



