皆さん、こんにちは!
私の最新プロジェクト、Apex-1 をご紹介したいと思います。これは、エッジデバイスでのスピードと効率を目的とした軽量な3億5千万パラメータのモデルです。
目的: 消費者向けハードウェアと高品質なデータを使って、小さなモデルにどれだけ多くの「世界知識」と命令追従能力を詰め込めるか試してみたかったのです。
主要情報:
- アーキテクチャ: nanoGPT / Transformerをベースにしています。
- データセット: 推論と知識のためにFineWeb-Edu(10BT)のサブセットで事前学習しました。
- 微調整: 命令追従性向上のためAlpaca-Cleanedで微調整しています。
- フォーマット: 重みはONNX(モバイル/ウェブ向けに最適)と標準のPyTorch形式で提供されています。
基本的な要約や簡単なQ&A、通常はLLMを扱えないハードウェアでの実行に適しています。
こちらでご覧ください:https://huggingface.co/LH-Tech-AI/Apex-1-Instruct-350M
これはまだ始まりに過ぎません。Apex 1.5とコードに特化したバージョンが既に開発中です。ぜひフィードバックやベンチマーク結果をお待ちしています!