# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

Zenn / 4/2/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical Usage

Key Points

  • 青空文庫の11冊をデータにして、著者がLLMを「ゼロから」自作する過程を通じて、日本語をそれなりに喋れるようになるまでの実装・試行を紹介している。
  • 学習データ(青空文庫)選定や前処理、学習の進め方など、個人でも再現可能な範囲に落とし込むことで「LLMはブラックボックスではない」という学習可能性を示している。
  • 小規模データでも日本語生成が成立することから、言語モデルの挙動を理解する入口としての価値(教育・検証・プロトタイピング)を強調している。
  • 生成結果が期待通りにいかない/改善が必要になる局面も含め、試行錯誤の観点からLLM開発の現実的な難しさとコツを示唆している。
はじめに 先日、こんなクライアントワークを受注しました。 「オリジナルのGPTを作って、ファインチューニングして遊びたい」 正直、未知の領域でした。LLMの仕組みはなんとなく知っていたけど、ゼロから実装したことはない。でも「Claude Codeで何とかなるだろう」と思って受けました。 結果、実働5時間で動くLLMができました。 しかも、意外とちゃんと日本語を喋る。 この記事では、その過程を技術的な話と非技術的な話を混ぜながら書きます。エンジニアじゃない人も、LLMがどういうものか少しわかるように書くつもりです。 作ったもの アーキテクチャ:Transformer(GP...

Continue reading this article on the original site.

Read original →