NanochatとLlamaでゼロから学習するなら?

Reddit r/MachineLearning / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 投稿者は、歴史データのみでモデルを全体的に学習しており、過去の学習ではNanochatを使って事前学習とSFTはうまくいったものの、その後の相互運用性に課題があった。
  • NanochatをTransformers対応にする取り組みはあるが、投稿者が学習に使った最新版ではTransformers互換のモデルを生成できない。
  • 次の学習では、LlamaアーキテクチャとHugging Face Transformersの「Trainer」クラスを使って、Transformers経由で利用できるオープンソース化を目指している。
  • Nanochatの利点(例:depthパラメータによるオートスケーリング)と、標準的な相互運用性の必要性のバランスを検討し、Llamaが最適か、他により良い選択肢があるかを相談している。
  • また、Llama/Transformersに切り替えるか、Nanochatを再利用してからHF互換形式へ変換するエクスポートスクリプトを後で作るかの両案を検討している。

みなさんこんにちは。私は、これまでのこのサブレディットで以前投稿した内容のとおり、歴史的データだけを用いてモデルを完全に学習するというプロジェクトに取り組んでいます。前回の学習実行はNanochatを使って行い、最初のモデルの事前学習(pretraining)とSFTには非常にうまくいったのですが、nanochatは立ち上げるためには素晴らしい一方で、相互運用性(interoperability)という点ではあまり良くないことが分かってきました。nanochatをtransformersと互換性のあるものにするための小さな取り組みはいくつか行われていますが、(私が学習に使った)最新バージョンのnanochatでは、transformersと互換性のあるモデルが生成されません。

そこで次の学習実行は、Llamaアーキテクチャとtransformersの「trainer」クラスを使おうと考えています。事前学習用に、もっと大規模なデータセットを用意しました。そして、このプロジェクトをオープンソース化して、transformersを使って人々がアクセスできるようにしたいです。とはいえ、nanochatには(自動スケーリングのような—depthパラメータ—利点があります)。そのうえで、このシナリオにおいてLlamaは最適な潜在的アーキテクチャなのでしょうか?それとも、ここで使えるより良い選択肢があるのでしょうか?それとも結局、またNanochatを使い、別側でnanochatからHFへのエクスポート用スクリプトを作り上げられることを期待するべきでしょうか?

投稿者 /u/centerstate
[link] [comments]