複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

日経XTECH / 3/30/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

Key Points

2017年の「Attention Is All You Need」により、従来の逐次処理中心からTransformer/アテンションによる全体同時参照へ転換し、長文でも情報を失わずに学習できる基盤が整った
Transformerの登場後、BERT（文脈理解）とGPT（次トークン予測・生成）という2系統の進化が加速し、検索体験や文章生成の性能向上につながった
2019年のGPT-2は自然な文章生成が注目され、「悪用の危険」を理由に公開が制限されるほど社会的なインパクトを生んだ
本特集（書籍抜粋）は、LLM発展の歴史を振り返りつつ、Transformerとアテンション機構を数式やコードとともに体系的に解説する構成を取っている
以降の章では、実装・学習技術（SFT、DPO）や分散学習など、LLMを実際に作るための要素へ論点を移す予定だと示唆されている

　書籍『作ってわかる大規模言語モデルの仕組み』（日経BP）は、大規模言語モデル（LLM）の基礎理論から実装まで、体系的に学べることを目指しています。本特集では書籍の序盤部を抜粋し、LLM発展の歴史を振り返りつつ、昨今のLLMの核となる「Transformer」「アテンション機構」について数式やコードも織り交ぜながら丁寧に解説します。第1回ではまず、LLMの歴史を振り返ります。

　本特集で解説するLLMの隆盛は、一夜にして実現したものではありません。いくつかの重要なブレイクスルーの積み重ねによって、今日の姿があります。ここでは、2017年から現在に至るまでの主要な出来事を振り返ります。

図 LLMの変遷

（出所：書籍『作ってわかる大規模言語モデルの仕組み』）

[画像のクリックで拡大表示]

2017年

　現代AIの歴史において、2017年は「紀元前」と「紀元後」を分かつ決定的な年となりました。Googleの研究チームが発表した「Attention Is All You Need」という論文が、それまでの常識を根底から覆したのです。

書籍『作ってわかる大規模言語モデルの仕組み』

ChatGPTが使う大規模言語モデル（LLM）「GPT」を一から作る

Transformerモデルを作った後、GPT-2相当のLLMを実装。さらにGPT-2だけでは実現できなかった「人間の意図に沿った応答」を生成するための技術（SFT、DPO）を、コードで体験します。多数のGPUを使った分散学習についてもコードを示しながら解説。現代の大規模言語モデルがどのように作られているのかをこの1冊で理解できます。

詳細・購入

　それまでのAIは、情報を端から順番に処理するしかありませんでした。そのため、長い文章になると最初の方の内容を「忘れてしまう」という弱点があったのです。これに対し、新しく登場したTransformerは、文章全体をパッと一度に見渡し、単語同士のつながりを同時に計算する仕組みを導入しました。これにより、膨大なデータを高速に、そして正確に学習する土台が完成したのです。

2018〜2019年

　Transformerという強力なエンジンを手に入れたAIの世界は、ここで大きく2つの方向に進化します。

　一つは、文章を深く読み解くのが得意なBERT（Google）です。検索エンジンなどの「文脈を理解する」能力を劇的に高め、私たちの日常の検索体験を裏側で支えるようになりました。もう一つは、文章の続きを予測して作るのが得意なGPT-1（OpenAI）です。特に2019年のGPT-2は、あまりに自然な文章を書くことができたため、「悪用されると危険だ」と公開が制限されるほどの騒ぎになりました。なお本書では、このGPT-2相当のLLMを実装した後、それ以降に登場した新しい技術にも取り組んでいきます。

2020〜2022年

この記事は会員登録で続きをご覧いただけます

Black Hat Asia

AI Business

The Brand Gravity Anomaly: Uncovering AI Developer Friction with a 5-Organ Swarm and Notion MCP

Dev.to

Hyper-Personalization in Action: AI-Driven Media Lists

Dev.to

Learning Thermodynamics with Boltzmann Machines

Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dev.to

複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

Key Points

2017年

書籍『作ってわかる大規模言語モデルの仕組み』

2018〜2019年

次のページ

Related Articles

Black Hat Asia

The Brand Gravity Anomaly: Uncovering AI Developer Friction with a 5-Organ Swarm and Notion MCP

Hyper-Personalization in Action: AI-Driven Media Lists

Learning Thermodynamics with Boltzmann Machines

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer