複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

日経XTECH / 3/30/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

共有:

Key Points

LLMの現在地は2017年以降の複数のブレイクスルーの積み重ねであり、特に2017年の「Attention Is All You Need」が転換点になったと整理している
Transformerが文章全体を同時に見渡して単語間の関係を計算できるため、長文でも情報を保持しつつ高速・正確に学習できる基盤が整った点を強調している
2018〜2019年はTransformerを「文脈理解」に活かすBERT系と、「次の語の予測」に活かすGPT系という二方向への進化が示される
2019年のGPT-2は文章の自然さゆえに悪用リスクが問題視され、公開制限が話題になるほどのインパクトがあったと述べている
本記事は日経BPの書籍序盤抜粋として、Transformer/アテンション機構を数式やコードも交えて体系的に解説する流れの導入になっている

　書籍『作ってわかる大規模言語モデルの仕組み』（日経BP）は、大規模言語モデル（LLM）の基礎理論から実装まで、体系的に学べることを目指しています。本特集では書籍の序盤部を抜粋し、LLM発展の歴史を振り返りつつ、昨今のLLMの核となる「Transformer」「アテンション機構」について数式やコードも織り交ぜながら丁寧に解説します。第1回ではまず、LLMの歴史を振り返ります。

　本特集で解説するLLMの隆盛は、一夜にして実現したものではありません。いくつかの重要なブレイクスルーの積み重ねによって、今日の姿があります。ここでは、2017年から現在に至るまでの主要な出来事を振り返ります。

図 LLMの変遷

（出所：書籍『作ってわかる大規模言語モデルの仕組み』）

[画像のクリックで拡大表示]

2017年

　現代AIの歴史において、2017年は「紀元前」と「紀元後」を分かつ決定的な年となりました。Googleの研究チームが発表した「Attention Is All You Need」という論文が、それまでの常識を根底から覆したのです。

書籍『作ってわかる大規模言語モデルの仕組み』

ChatGPTが使う大規模言語モデル（LLM）「GPT」を一から作る

Transformerモデルを作った後、GPT-2相当のLLMを実装。さらにGPT-2だけでは実現できなかった「人間の意図に沿った応答」を生成するための技術（SFT、DPO）を、コードで体験します。多数のGPUを使った分散学習についてもコードを示しながら解説。現代の大規模言語モデルがどのように作られているのかをこの1冊で理解できます。

詳細・購入

　それまでのAIは、情報を端から順番に処理するしかありませんでした。そのため、長い文章になると最初の方の内容を「忘れてしまう」という弱点があったのです。これに対し、新しく登場したTransformerは、文章全体をパッと一度に見渡し、単語同士のつながりを同時に計算する仕組みを導入しました。これにより、膨大なデータを高速に、そして正確に学習する土台が完成したのです。

2018〜2019年

　Transformerという強力なエンジンを手に入れたAIの世界は、ここで大きく2つの方向に進化します。

　一つは、文章を深く読み解くのが得意なBERT（Google）です。検索エンジンなどの「文脈を理解する」能力を劇的に高め、私たちの日常の検索体験を裏側で支えるようになりました。もう一つは、文章の続きを予測して作るのが得意なGPT-1（OpenAI）です。特に2019年のGPT-2は、あまりに自然な文章を書くことができたため、「悪用されると危険だ」と公開が制限されるほどの騒ぎになりました。なお本書では、このGPT-2相当のLLMを実装した後、それ以降に登場した新しい技術にも取り組んでいきます。

2020〜2022年

この記事は会員登録で続きをご覧いただけます

Booting Robikatsu — Day 0 Rebuilding my life while building an AI startup operating system

Dev.to

What Is AI Execution Risk? Why AI Governance Fails at the Execution Boundary

Dev.to

How to Evaluate a Binary Classifier: A Complete Guide

Dev.to

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

Dev.to

Building a Vertically Integrated AI Stack: How Load Bearing Empire Eliminated SaaS Dependencies

Dev.to

複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

Key Points

2017年

書籍『作ってわかる大規模言語モデルの仕組み』

2018〜2019年

次のページ

Related Articles

Booting Robikatsu — Day 0 Rebuilding my life while building an AI startup operating system

What Is AI Execution Risk? Why AI Governance Fails at the Execution Boundary

How to Evaluate a Binary Classifier: A Complete Guide

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

Building a Vertically Integrated AI Stack: How Load Bearing Empire Eliminated SaaS Dependencies

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer