# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

Zenn / 4/2/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical Usage

共有:

Key Points

青空文庫の11冊をデータにして、著者がLLMを「ゼロから」自作する過程を通じて、日本語をそれなりに喋れるようになるまでの実装・試行を紹介している。
学習データ（青空文庫）選定や前処理、学習の進め方など、個人でも再現可能な範囲に落とし込むことで「LLMはブラックボックスではない」という学習可能性を示している。
小規模データでも日本語生成が成立することから、言語モデルの挙動を理解する入口としての価値（教育・検証・プロトタイピング）を強調している。
生成結果が期待通りにいかない/改善が必要になる局面も含め、試行錯誤の観点からLLM開発の現実的な難しさとコツを示唆している。

はじめに先日、こんなクライアントワークを受注しました。「オリジナルのGPTを作って、ファインチューニングして遊びたい」正直、未知の領域でした。LLMの仕組みはなんとなく知っていたけど、ゼロから実装したことはない。でも「Claude Codeで何とかなるだろう」と思って受けました。結果、実働5時間で動くLLMができました。しかも、意外とちゃんと日本語を喋る。この記事では、その過程を技術的な話と非技術的な話を混ぜながら書きます。エンジニアじゃない人も、LLMがどういうものか少しわかるように書くつもりです。作ったものアーキテクチャ：Transformer（GP...

Continue reading this article on the original site.

Read original →