「ChatGPTやGeminiなどの生成AIは、どうやって言葉を理解しているの?」
現在のAIブームの火付け役となった技術、それが2017年にGoogleが発表した論文「Attention Is All You Need」で提案されたTransformerです。
この記事では、今の生成AIの「脳」とも言えるTransformerの仕組みについて、特に重要なAttention(アテンション)メカニズムを中心に、初心者の方にもイメージしやすいよう図解(概念図)を交えて解説します。
Transformer(トランスフォーマー)とは?
Transformerは、ディープラーニング(深層学習)モデルの一つで、主に自然言語処理(NLP)の分野で革命を起こしました。
それまでのAI(RNNやLSTMなど)は、文章を「先頭から順番に」読んで理解していました。 しかし、Transformerは「文章全体を一度に見渡す」ことができる構造を持っています。
従来モデルとの違い
- RNN/LSTM(従来): 文章を単語ごとに前から順に処理する。長い文章だと、最初のほうの内容を忘れてしまうことがあった。並列処理が難しく、学習に時間がかかる。
- Transformer(現在): 文章全体を同時に処理し、単語同士の関係性(文脈)を一気に計算する(Attention)。並列処理が得意で、大量のデータで高速に学習できる。
この「並列処理」と「Attention」のおかげで、AIは飛躍的に賢くなり、ChatGPTのような流暢な対話が可能になっています。
Transformerの全体像(アーキテクチャ)
Transformerは大きく分けて、情報を読み解く「エンコーダ(Encoder)」と、文章を生成する「デコーダ(Decoder)」の2つの部分から成り立っています。
- エンコーダ: 入力された文章(例:「私は猫が好き」)の特徴や意味を抽出する役割。
- デコーダ: エンコーダからの情報を元に、新しい文章(例:「I like cats」)を生成する役割。

※ 現在のLLM(GPTシリーズなど)は、このうちの「デコーダ」部分だけを巨大化させた構成(Decoder-only)が主流です。一方、BERTなどは「エンコーダ」部分を使っています。
Attentionメカニズム
Transformerの最大の特徴は、Attentionと呼ばれる仕組みです。 これは、「文章の中で、どの単語に注目すべきか?」をAI自身が判断する機能です。
「カメ」は「動物」?「カメラ」?
例えば、「川の近くにカメラを落とした」という文と、「川でカメが泳いでいる」という文があったとします。
人間なら、前者の「カメ」は「カメラ」の一部、後者の「カメ」は「動物の亀」だと瞬時にわかります。これは、私たちが「カメ」という文字だけでなく、周りの「落とした」「泳いでいる」という単語に注目(Attention)して意味を判断しているからです。
Transformerも同様に、ある単語を処理する際、文中の他のすべての単語との関連度を計算し、「どこに注目すべきか」を数値化します。これがAttentionです。
Self-Attention
Attentionの中でも特に重要なのがSelf-Attention(セルフアテンション)です。 これは、入力された文章の単語同士が、互いにどう関係しているかを調べる仕組みです。
Self-Attentionでは、各単語に対して以下の3つの役割(ベクトル)を持たせて計算します。
- Query(クエリ): 「私はどんな情報を探しているの?」(検索キーワード)
- Key(キー): 「私はどんな情報を持っているの?」(索引・見出し)
- Value(バリュー): 「私の情報の中身はこれだよ」(実際の内容)
これは検索エンジンで例えると…
- Query: あなたがGoogle検索に入力するワード(例:「美味しい カレー」)
- Key: ウェブページのタイトルやキーワード
- Value: 実際のウェブページの中身
となります。
Self-Attentionは、ある単語のQueryと、他の全単語のKeyを照らし合わせ(内積計算)、相性が良い(関連度が高い)ほど、その単語のValueを強く取り込みます。
この計算をすべての単語に対して行うことで、「『彼』とは『田中さん』のことだ」といった文脈理解が可能になります。
Multi-Head Attention
Self-Attentionをさらに進化させたのがMulti-Head Attentionです。 これは、Self-Attentionの計算を列に複数回行う仕組みです。
なぜ複数回行う必要があるのかと言うと、言葉には複数の視点があるからです。
- Head 1: 「誰が」「何を」という文法的な関係に注目
- Head 2: 「指示語(それ、あれ)」が何を指すかに注目
- Head 1: 「誰が」「何を」という文法的な関係に注目
- Head 2: 「指示語(それ、あれ)」が何を指すかに注目
- Head 3: 直前の単語との繋がりに注目

このように、複数の「ヘッド(Head)」がそれぞれ異なる視点で文章を分析し、最後にそれぞれの結果を統合します。 これにより、AIはより深く、多角的に文章を理解できるようになります。
Positional Encoding(位置エンコーディング)
最後に忘れてはならないのが、Positional Encoding(位置エンコーディング)です。
Transformerは文章全体を同時に処理(並列処理)するため、そのままだと「単語の順番」という情報が失われてしまいます 「犬 が 猫 を 噛んだ」のと「猫 が 犬 を 噛んだ」では、単語は同じでも意味が全く違います。
そこでTransformerでは、単語の情報(埋め込みベクトル)に「位置情報」数学的に足し合わせます。これがPositional Encodingです。
- 1番目の単語には「位置1の印」
- 2番目の単語には「位置2の印」…
といった値を加えることで、AIは単語の意味だけでなく、「どこにある単語か」も認識できるようになります。
まとめ
Transformerの仕組みを整理すると以下のようになります。
- 並列処理: 文章全体を一度に読み込むことで高速学習が可能になる。
- Position Encoding: 単語の順番情報を付与する。
- Self-Attention: 単語ごとの関連性(文脈)を計算し、重要な情報に注目する。
- Multi-Head Attention: 複数の視点で分析し、深い理解を実現する。
Transformerの登場により、AIは人間と同等、あるいはそれ以上の言語能力を獲得し始めました。 現在私たちが使っているChatGPTなどのAIも、このTransformerの仕組みをベースに、とてつもない量のデータで学習させたものなのです。