ITや趣味など気軽に投稿しています。

【図解】Transformerとは?仕組みとAttentionを初心者向けにわかりやすく解説

「ChatGPTやGeminiなどの生成AIは、どうやって言葉を理解しているの?」

現在のAIブームの火付け役となった技術、それが2017年にGoogleが発表した論文「Attention Is All You Need」で提案されたTransformerです。

この記事では、今の生成AIの「脳」とも言えるTransformerの仕組みについて、特に重要なAttention(アテンション)メカニズムを中心に、初心者の方にもイメージしやすいよう図解(概念図)を交えて解説します。

Transformer(トランスフォーマー)とは?

Transformerは、ディープラーニング(深層学習)モデルの一つで、主に自然言語処理(NLP)の分野で革命を起こしました。

それまでのAI(RNNやLSTMなど)は、文章を「先頭から順番に」読んで理解していました。 しかし、Transformerは「文章全体を一度に見渡す」ことができる構造を持っています。

従来モデルとの違い

  • RNN/LSTM(従来): 文章を単語ごとに前から順に処理する。長い文章だと、最初のほうの内容を忘れてしまうことがあった。並列処理が難しく、学習に時間がかかる。
  • Transformer(現在): 文章全体を同時に処理し、単語同士の関係性(文脈)を一気に計算する(Attention)。並列処理が得意で、大量のデータで高速に学習できる。

この「並列処理」と「Attention」のおかげで、AIは飛躍的に賢くなり、ChatGPTのような流暢な対話が可能になっています。

Transformerの全体像(アーキテクチャ)

Transformerは大きく分けて、情報を読み解く「エンコーダ(Encoder)」と、文章を生成する「デコーダ(Decoder)」の2つの部分から成り立っています。

  • エンコーダ: 入力された文章(例:「私は猫が好き」)の特徴や意味を抽出する役割。
  • デコーダ: エンコーダからの情報を元に、新しい文章(例:「I like cats」)を生成する役割。
Pasted image 20260225235007.png

※ 現在のLLM(GPTシリーズなど)は、このうちの「デコーダ」部分だけを巨大化させた構成(Decoder-only)が主流です。一方、BERTなどは「エンコーダ」部分を使っています。

Attentionメカニズム

Transformerの最大の特徴は、Attentionと呼ばれる仕組みです。 これは、「文章の中で、どの単語に注目すべきか?」をAI自身が判断する機能です。

「カメ」は「動物」?「カメラ」?

例えば、「の近くにカメラを落とした」という文と、「カメが泳いでいる」という文があったとします。

人間なら、前者の「カメ」は「カメラ」の一部、後者の「カメ」は「動物の亀」だと瞬時にわかります。これは、私たちが「カメ」という文字だけでなく、周りの「落とした」「泳いでいる」という単語に注目(Attention)して意味を判断しているからです。

Transformerも同様に、ある単語を処理する際、文中の他のすべての単語との関連度を計算し、「どこに注目すべきか」を数値化します。これがAttentionです。

Self-Attention

Attentionの中でも特に重要なのがSelf-Attention(セルフアテンション)です。 これは、入力された文章の単語同士が、互いにどう関係しているかを調べる仕組みです。

Self-Attentionでは、各単語に対して以下の3つの役割(ベクトル)を持たせて計算します。

  1. Query(クエリ): 「私はどんな情報を探しているの?」(検索キーワード)
  2. Key(キー): 「私はどんな情報を持っているの?」(索引・見出し)
  3. Value(バリュー): 「私の情報の中身はこれだよ」(実際の内容)

これは検索エンジンで例えると…

  • Query: あなたがGoogle検索に入力するワード(例:「美味しい カレー」)
  • Key: ウェブページのタイトルやキーワード
  • Value: 実際のウェブページの中身

となります。

Self-Attentionは、ある単語のQueryと、他の全単語のKeyを照らし合わせ(内積計算)、相性が良い(関連度が高い)ほど、その単語のValueを強く取り込みます。

この計算をすべての単語に対して行うことで、「『彼』とは『田中さん』のことだ」といった文脈理解が可能になります。

Multi-Head Attention

Self-Attentionをさらに進化させたのがMulti-Head Attentionです。 これは、Self-Attentionの計算を列に複数回行う仕組みです。

なぜ複数回行う必要があるのかと言うと、言葉には複数の視点があるからです。

  • Head 1: 「誰が」「何を」という文法的な関係に注目
  • Head 2: 「指示語(それ、あれ)」が何を指すかに注目
  • Head 1: 「誰が」「何を」という文法的な関係に注目
  • Head 2: 「指示語(それ、あれ)」が何を指すかに注目
  • Head 3: 直前の単語との繋がりに注目
Untitled diagram-2026-02-25-150835.png

このように、複数の「ヘッド(Head)」がそれぞれ異なる視点で文章を分析し、最後にそれぞれの結果を統合します。 これにより、AIはより深く、多角的に文章を理解できるようになります。

Positional Encoding(位置エンコーディング)

最後に忘れてはならないのが、Positional Encoding(位置エンコーディング)です。

Transformerは文章全体を同時に処理(並列処理)するため、そのままだと「単語の順番」という情報が失われてしまいます 「犬 が 猫 を 噛んだ」のと「猫 が 犬 を 噛んだ」では、単語は同じでも意味が全く違います。

そこでTransformerでは、単語の情報(埋め込みベクトル)に「位置情報」数学的に足し合わせます。これがPositional Encodingです。

  • 1番目の単語には「位置1の印」
  • 2番目の単語には「位置2の印」…

といった値を加えることで、AIは単語の意味だけでなく、「どこにある単語か」も認識できるようになります。

まとめ

Transformerの仕組みを整理すると以下のようになります。

  1. 並列処理: 文章全体を一度に読み込むことで高速学習が可能になる。
  2. Position Encoding: 単語の順番情報を付与する。
  3. Self-Attention: 単語ごとの関連性(文脈)を計算し、重要な情報に注目する。
  4. Multi-Head Attention: 複数の視点で分析し、深い理解を実現する。

Transformerの登場により、AIは人間と同等、あるいはそれ以上の言語能力を獲得し始めました。 現在私たちが使っているChatGPTなどのAIも、このTransformerの仕組みをベースに、とてつもない量のデータで学習させたものなのです。


参考文献: Attention Is All You Need (2017)