| こんにちは r/LocalLLaMA ! 以前のApex 350Mモデル(https://huggingface.co/LH-Tech-AI/Apex-1.6-Instruct-350M)に匹敵できるくらい良くなるのかを確かめるために、Kaggleの2台のT4でHF Transformersを使って、5MのLlamaモデルを作りました。 研究サイトへのリンク: https://lh-tech.de/ai/sub-5m-research.html 分かったのは、モデルを十分に最適化し、より大量のデータで学習すれば、70倍重いモデル(Apex 350Mのような、GPT-2アーキテクチャ)とほぼ同等になり得るということです。 皆さんはどう思いますか! Spark v5は近日公開… きっと良いものになるはず [リンク] [コメント] |
5Mモデルを作って、自分の350Mモデルより性能が出るか検証した
Reddit r/LocalLLaMA / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 著者は、KaggleでNVIDIA T4を2基使い、Hugging Face Transformersでパラメータ500万のLlamaモデルを学習し、以前の350Mパラメータモデルとの性能比較を行いました。
- 研究サイトへのリンクでは、十分に最適化し、より大量のデータで学習すれば、重いモデルにかなり近い性能に到達し得ると述べています。
- 具体的には、Apex 350M(GPT-2系アーキテクチャ)のような「70倍重い」モデルにほぼ匹敵する結果が出たと主張しています。
- 「Spark v5」を近日公開予定としており、今後の改良にも期待を示しています。




