# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話
Zenn / 4/2/2026
💬 OpinionIdeas & Deep AnalysisTools & Practical Usage
Key Points
- 青空文庫の11冊をデータにして、著者がLLMを「ゼロから」自作する過程を通じて、日本語をそれなりに喋れるようになるまでの実装・試行を紹介している。
- 学習データ(青空文庫)選定や前処理、学習の進め方など、個人でも再現可能な範囲に落とし込むことで「LLMはブラックボックスではない」という学習可能性を示している。
- 小規模データでも日本語生成が成立することから、言語モデルの挙動を理解する入口としての価値(教育・検証・プロトタイピング)を強調している。
- 生成結果が期待通りにいかない/改善が必要になる局面も含め、試行錯誤の観点からLLM開発の現実的な難しさとコツを示唆している。
はじめに
先日、こんなクライアントワークを受注しました。
「オリジナルのGPTを作って、ファインチューニングして遊びたい」
正直、未知の領域でした。LLMの仕組みはなんとなく知っていたけど、ゼロから実装したことはない。でも「Claude Codeで何とかなるだろう」と思って受けました。
結果、実働5時間で動くLLMができました。
しかも、意外とちゃんと日本語を喋る。
この記事では、その過程を技術的な話と非技術的な話を混ぜながら書きます。エンジニアじゃない人も、LLMがどういうものか少しわかるように書くつもりです。
作ったもの
アーキテクチャ:Transformer(GP...
Continue reading this article on the original site.
Read original →


