LLM(大規模言語モデル)の仕組みをわかりやすく解説
ChatGPT や Claude はなぜ「次の言葉」を予測できるのか。トークン化・Embedding・Attention・自己回帰生成・RLHF まで、図解と具体例でやさしく解説します。
ChatGPT に「明日の会議の議事録を要約して」と頼むと、的確に要約してくれます。Claude に「このコードのバグを直して」と頼めば、説明付きで修正案を提示してくれます。
では、その「裏側」では何が起きているのでしょうか。
LLM は考えていません。 知っているわけでも、理解しているわけでも、おそらくありません。しかし、「次に来る言葉を予測する」というひとつの仕組みを極限まで大規模にすると、驚くほど知性的に見える振る舞いが生まれます。
この記事では LLM(Large Language Model / 大規模言語モデル)の仕組みを基礎から丁寧に解説します。
LLM の処理フロー — まず全体像を把握する
細かい説明に入る前に、テキストがどのように処理されるか俯瞰します。
flowchart LR
A["📝 入力テキスト\n東京の天気は?"] --> B["🔤 Tokenizer\nトークン化"]
B --> C["📊 Embedding\nベクトル変換"]
C --> D["⚙️ Transformer\n× N 層"]
D --> E["📈 Softmax\n確率分布"]
E --> F["✅ 次のトークン\n晴れ"]
F -->|自己回帰ループ| C入力テキストを受け取り → 数値に変換し → 何十層もの変換を経て → 次に来そうな単語の確率を計算する。これを 1 トークンずつ繰り返して文章を生成します。
以下では、各ステップを順番に深掘りします。
① テキストをどう読む? — トークン化
LLM はテキスト(文字列)を直接扱いません。まず トークン と呼ばれる小さな単位に分割し、整数(ID)に変換します。

なぜ文字単位でも単語単位でもないのか
- 文字単位(「東」「京」「は」…)では文脈が長くなりすぎて処理が重くなる
- 単語単位(「東京は晴れです」丸ごと)では語形変化ごとに別単語扱いとなり、語彙数が爆発する
BPE(Byte Pair Encoding) はその中間を取るアルゴリズムです。学習データで頻繁に隣り合う文字のペアを繰り返しまとめていき、「よく一緒に使われる単位」をトークンとして定義します。
"unhappiness" → ["un", "happi", "ness"] # 英語の例
"東京は晴れです" → ["東京", "は", "晴れ", "です"] # 日本語の例日本語は英語よりトークン数が多い
日本語は英語に比べて 1 トークンあたりの文字数が少ない傾向があります(英語 3〜4 文字に対し日本語 1〜2 文字が目安)。同じ内容でも日本語の方がトークン数が多くなり、API コストが高くなります。
② 意味を数値で表す — Embedding(埋め込み)
整数 ID に変換したあと、各トークンは 高次元のベクトル(数値の配列)に変換されます。これを Embedding(埋め込み) と呼びます。GPT-3 では 12,288 次元のベクトルが使われています。
なぜベクトルで表すのか
ベクトルにすることで「意味の近さ」を数値で計算できるようになります。
有名な例として:
king(王) - man(男) + woman(女) ≈ queen(女王)適切に学習されたモデルでは、ベクトル空間上でこのような意味的な演算が成り立つことがあります。「king と queen は性別を除いて似た意味」という関係が、ベクトルの差として表現されるのです。
学習が進むにつれて、このベクトル空間は意味の豊かな地図になっていきます。
③ 文脈を理解する — Self-Attention
LLM の核心が Transformer アーキテクチャ、そしてその中核が Self-Attention(自己注意機構) です。
「どの単語に注目するか」を動的に計算する
文章の意味を正しく理解するには「どの単語がどの単語に関係しているか」を捉える必要があります。
次の文を考えてみます。
「彼は東京で生まれ、その後 彼が 通った大学は京都にあった」
「彼が」という単語が誰を指すのかを理解するためには、文頭の「彼は」との関係をたどる必要があります。Self-Attention はこれを数値として計算し、「彼(2回目)」が「彼(1回目)」に強く注目するよう学習されます。
| トークン | 強く Attention を向ける相手 |
|---|---|
| 「行った」 | 主語(誰が)・目的語(どこへ) |
| 「彼(2回目)」 | 「彼(1回目)」 |
| 「晴れ」 | 「東京」「明日」など文脈語 |
| 「です」 | 直前の述語 |
Q・K・V — 図書館の検索に例えると
Self-Attention の内部では、各トークンが Q(Query)・K(Key)・V(Value) という 3 種類のベクトルを持ちます。
| 役割 | 図書館の例え | 意味 |
|---|---|---|
| Q(Query) | 検索ワード | 「私は何を探しているか」 |
| K(Key) | 本のタイトル・索引 | 「私はどんな情報を持っているか」 |
| V(Value) | 本の中身 | 「実際に取り出す情報」 |
Q と K の内積で類似度を計算 → Softmax で正規化 → その重みで V を加重平均する。これが Self-Attention の計算です。
Multi-Head Attention — 複数の視点で見る
実際には、この Attention を 複数のヘッド(視点) で並行して実行します。
- ヘッド 1:主語・述語の関係に注目
- ヘッド 2:指示語(彼・それ・ここ)の解決に注目
- ヘッド 3:形容詞と名詞の修飾関係に注目
複数の視点からの情報を統合することで、一層豊かな文脈理解が実現されます。
④ Transformer ブロックの構造
flowchart TD
A["入力ベクトル列"] --> B["Multi-Head Self-Attention"]
B --> C["Add & LayerNorm(残差接続)"]
C --> D["Feed Forward Network(全結合 2 層)"]
D --> E["Add & LayerNorm(残差接続)"]
E --> F["出力ベクトル列"]- Residual Connection(残差接続):入力をそのまま足し合わせることで、深いネットワークでも勾配が消えにくくなる
- Layer Normalization:各層の出力を正規化して学習を安定させる
- Feed Forward Network:各トークンを独立に変換し、より複雑な特徴を抽出する
このブロックを N 層積み重ねたものが Transformer です。GPT-3 は 96 層、GPT-4 はさらに多いと言われています。
⑤ 学習の仕組み — 事前学習
どんなデータで学習するか
LLM の事前学習には、インターネット・書籍・Wikipedia・コードなど、兆を超える規模のテキストデータが使われます。
| モデル | パラメータ数 | 学習データ量 |
|---|---|---|
| GPT-2(2019) | 15 億 | 40 GB |
| GPT-3(2020) | 1,750 億 | 570 GB |
| Llama 3(2024) | 4,050 億 | 15 兆トークン |
自己教師あり学習
学習は「次のトークンを当てる」という問いの繰り返しです。
入力:「東京の天気は」
正解:「晴れ」(次のトークン)
モデルの予測:「晴れ 68% / 雨 15% / 曇り 12%」 → 正解の確率を最大化モデルが予測したトークンと正解を比較し、誤差(ロス)を計算。その誤差を 逆伝播(Backpropagation) させてパラメータを更新します(勾配降下法)。
人間がラベルを付ける必要がなく、テキストデータさえあれば自動で学習できる点が LLM を大規模化できた理由です。
⑥ 文章を生成する — 自己回帰生成
学習済みのモデルが実際に文章を生成するとき、1 トークンずつ順番に出力します。

- 入力(プロンプト)をトークン列に変換
- Transformer が全トークンを処理し、次のトークンの確率分布を計算
- 確率に基づいてトークンを選択して出力
- 選んだトークンを入力末尾に追加して 2 へ戻る
- 終了トークン
<EOS>が出るか最大トークン数に達するまで繰り返す
これが 自己回帰生成(Autoregressive Generation) です。ChatGPT の回答が「文字が流れるように表示される」のは、トークンを 1 つずつ出力しているためです。
Temperature — ランダム性の調整
毎回「最も確率が高いトークン」だけを選ぶと、回答が決定論的になります。Temperature パラメータで確率分布の「尖り」を調整します。
| Temperature | 特性 | 向いている用途 |
|---|---|---|
| 0 に近い | 決定論的・再現性あり | コード生成・事実確認 |
| 0.7 前後 | バランス型 | 一般的な会話・要約 |
| 1 以上 | 多様・創造的 | ブレスト・物語生成 |
Top-p サンプリング
確率の累積値が p% に達するまでの上位トークンのみを候補にする方法です(Top-p = 0.9 なら累積確率 90% 以内のトークンからランダム選択)。Temperature と組み合わせて使うことが多いです。
⑦ 指示に従う — SFT と RLHF
事前学習だけのモデルは「次の単語を予測する」しかできません。「質問に答える」「有害な表現を避ける」ためには、追加の学習が必要です。
SFT(Supervised Fine-tuning / 教師あり微調整)
人間が作成した「質問と理想的な回答」のペアを使ってモデルを追加学習します。
質問:「Python で文字列を逆順にするには?」
理想回答:「reversed() 関数か s[::-1] スライスを使います。例:'hello'[::-1] → 'olleh'」RLHF(人間フィードバックによる強化学習)
- モデルに同じ質問で複数の回答を生成させる
- 人間のレビュアーが回答を「良い / 悪い」で評価する
- その評価データで 報酬モデル を学習する
- 報酬モデルのスコアを最大化するよう、元モデルを強化学習(PPO)で更新する
これを繰り返すことで「人間が好む回答」を生成するよう誘導されます。ChatGPT の礼儀正しさや安全性への配慮は、この RLHF によるものです。
Constitutional AI — Claude の場合
Anthropic が開発した Claude は、RLHF に加えて Constitutional AI という手法を採用しています。「誠実であること」「有害なコンテンツを避けること」などの原則(Constitution)をモデル自身に評価・批判させ、自己改善を促す方法です。人間によるフィードバックの依存度を下げながら、安全性を高めることができます。
⑧ なぜ「賢く」見えるのか — スケール則と創発
スケール則(Scaling Laws)
LLM の性能は、次の 3 つのスケールにほぼ比例して向上することが知られています。
- パラメータ数(モデルの大きさ)
- 学習データ量
- 計算量(GPU 時間)
「大きくすればするほど賢くなる」という経験則です。これが AI 企業が巨大モデルの開発競争を続ける理由のひとつです。
創発的能力(Emergent Abilities)
規模がある閾値を超えると、小さいモデルでは全く見られなかった能力が突然現れることがあります。
- 算数の問題を解く
- 類推推論(A : B = C : ?)
- コードのデバッグ
- 多段階の論理推論
これらはプログラムされた機能ではなく、スケールアップの過程で「創発」した能力です。なぜ創発が起きるのかは、現在の研究でもまだ完全には解明されていません。
⑨ LLM の限界と注意点
ハルシネーション(Hallucination / 幻覚)
LLM はもっともらしい文章を生成する機械であり、事実を確認しているわけではありません。「正確に聞こえるが誤った情報」を自信満々に生成することがあります。
- 存在しない論文・URL を引用する
- 有名人の経歴を誤って説明する
- 法律・医療情報を間違える
重要な情報は必ず一次情報で確認することが不可欠です。
知識のカットオフ
事前学習には締め切り日(カットオフ)があります。それ以降に起きた出来事はモデルの重みに含まれていません。最新情報が必要な場合は RAG(検索拡張生成) や Web 検索機能との組み合わせが必要です。
文脈窓(Context Window)の制限
LLM が一度に処理できるトークン数には上限があります。これを超えた情報は参照できなくなるため、長大な文書の処理には工夫が必要です。
| モデル | コンテキストウィンドウ |
|---|---|
| GPT-3.5 | 16,000 トークン |
| GPT-4o | 128,000 トークン |
| Claude 3.7 Sonnet | 200,000 トークン |
| Gemini 1.5 Pro | 1,000,000 トークン |
まとめ
| 概念 | 役割 | 一言で言うと |
|---|---|---|
| トークン化 | テキスト → 整数 ID | 文字列を数値に変換する |
| Embedding | 整数 ID → ベクトル | 意味を数値の配列で表現する |
| Self-Attention | トークン間の関係計算 | 「どの単語に注目するか」 |
| Multi-Head Attention | 複数視点での Attention | 多角的に文脈を理解する |
| Transformer | Attention + FFN を N 層 | 深い文脈理解を実現する構造 |
| 事前学習 | 次のトークン予測を繰り返す | 兆規模テキストから知識を吸収する |
| 自己回帰生成 | 1 トークンずつ確率的に出力 | 文章を左から右へ逐次生成する |
| SFT / RLHF | 指示追従・安全性を学習 | 役に立つアシスタントに変換する |
LLM は「考えている」わけではなく、「膨大な学習から統計的に最適な次のトークンを選んでいる」マシンです。しかし、その仕組みの組み合わせがスケールを超えたとき、予測を超えた知的な振る舞いを生み出します。
AI を正しく使いこなすためには、その仕組みと限界を理解することが出発点です。