「オープンソースのLLMを使ってみたいけど、種類が多すぎてどれを選べばいいかわからない…」 「Llama、Gemma、Qwenって名前は聞くけど、何が違うの?」 ——そんな疑問を持つ方向けの記事です。
ChatGPTやGeminiのようなクラウドベースのAIサービスは手軽に使える反面、データのプライバシーやコストの面で制約があります。そこで注目されているのが、自分の環境で自由に動かせる「オープンソースLLM」です。
この記事では、現在最も注目されている3大オープンソースLLMファミリーであるLlama(Meta)・Gemma(Google)・Qwen(Alibaba)を、特徴・性能・ライセンスの観点からわかりやすく比較します。
この記事の目次
オープンソースLLMとは?
オープンソースLLMとは、モデルの重み(パラメータ)が一般に公開されており、誰でもダウンロードして自分の環境で実行できるLLM(大規模言語モデル)のことです。
クラウドAPIとして提供される「クローズドモデル」(GPT-4、Claude等)と比較すると、以下のようなメリットがあります。
| 項目 | クローズドモデル | オープンソースLLM |
|---|---|---|
| データのプライバシー | データがクラウドに送信される | ローカルで完結できる |
| コスト | API利用料が継続的に発生 | ハードウェアのみ(利用料なし) |
| カスタマイズ | 制限あり | ファインチューニング自由 |
| ネット接続 | 必須 | オフラインでも動作可能 |
厳密には、LlamaやGemmaのライセンスはOSI(Open Source Initiative)の定義する「オープンソース」の基準を完全には満たしていないため、「オープンウェイト」と呼ばれることもあります。本記事では便宜上、広く使われている「オープンソース」という表現を使います。
3大オープンソースLLMの概要
現在、オープンソースLLMの分野で特に影響力のある3つのモデルファミリーを紹介します。
Llama(Meta)
Llama(ラマ)は、Meta(旧Facebook)が開発するオープンソースLLMファミリーで、オープンソースLLMブームの火付け役とも言える存在です。
2023年にLlama 2が公開されて以来、急速にコミュニティが拡大し、2025年4月には最新世代のLlama 4がリリースされました。
- 開発元: Meta(旧Facebook)
- 最新世代: Llama 4(Scout / Maverick)
- アーキテクチャ: Mixture-of-Experts(MoE)
- 対応モダリティ: テキスト+画像入力 → テキスト出力
- 多言語対応: 12言語
- コンテキスト長: 最大1,000万トークン(Scout)
Llama 4ではMoE(Mixture-of-Experts)アーキテクチャが採用されています。これは、モデル全体のパラメータ数は非常に大きいものの、推論時には一部の「エキスパート」だけが活性化する仕組みで、効率的な推論を実現しています。
- Llama 4 Scout: アクティブパラメータ17B × 16エキスパート。1,000万トークンの超長コンテキストが特徴
- Llama 4 Maverick: アクティブパラメータ17B × 128エキスパート。推論・コーディング性能を重視
Gemma(Google)
Gemma(ジェマ)は、Google DeepMindが開発するオープンソースLLMです。Googleの大規模モデル「Gemini」と同じ研究・技術をベースに、より軽量で扱いやすいモデルとして設計されています。
2025年3月にリリースされたGemma 3では、マルチモーダル対応や多言語対応が大幅に強化されました。
- 開発元: Google DeepMind
- 最新世代: Gemma 3
- サイズバリエーション: 1B / 4B / 12B / 27B
- 対応モダリティ: テキスト+画像入力 → テキスト出力(4B以上)
- 多言語対応: 140以上の言語
- コンテキスト長: 最大128Kトークン(4B以上)
Gemma 3の特筆すべき点は、小型モデルの性能の高さです。Gemma 3 4B(40億パラメータ)が、先代のGemma 2 27B(270億パラメータ)を上回るベンチマーク結果を出しており、効率の良さが際立ちます。
Qwen(Alibaba)
Qwen(クウェン)は、中国のAlibaba Cloud(阿里雲)が開発するオープンソースLLMファミリーです。特に日本語を含むアジア言語での性能や、数学・コーディング能力の高さで注目されています。
2024年9月にQwen 2.5が、2025年4月にはQwen 3がリリースされ、急速に進化を遂げています。
- 開発元: Alibaba Cloud
- 最新世代: Qwen 3 / Qwen 2.5
- サイズバリエーション: 0.5B〜72B(Qwen 2.5)、Dense+MoEモデル(Qwen 3)
- 対応モダリティ: テキスト・画像・音声・動画(Qwen 2.5-Omni)
- 多言語対応: 29以上の言語(日本語含む)
- コンテキスト長: 最大128Kトークン
Qwenシリーズの強みは、サイズバリエーションの豊富さです。0.5Bの超軽量モデルから72Bの大規模モデルまで揃っており、用途に応じた柔軟な選択が可能です。
ベンチマーク比較
各モデルの性能を客観的に比較するために、代表的なベンチマークスコアを見てみましょう。
ベンチマークとは?: AIモデルの性能を測定するための標準テストのことです。「MMLU」は幅広い知識を、「MATH」は数学的推論を、「HumanEval」はコーディング能力を測定します。
代表的なモデルの比較(同クラス帯)
| ベンチマーク | Llama 4 Scout (17B active) | Gemma 3 27B | Qwen 2.5-72B |
|---|---|---|---|
| MMLU(総合知識) | 79.6 | 78.9 | 86.1 |
| MATH(数学的推論) | 67.0 | 74.7 | 83.1 |
| HumanEval(コーディング) | 67.7 | 74.4 | 65.9 |
| GPQA Diamond(専門的Q&A) | 47.2 | 42.4 | 49.0 |
※ ベンチマークスコアは測定方法や条件によって異なります。上記は各開発元やリーダーボードの公開情報に基づく参考値です。
小型モデル(軽量)の比較
| ベンチマーク | Gemma 3 4B | Qwen 2.5-7B |
|---|---|---|
| MMLU | 64.7 | 74.2 |
| GSM8K(算数) | 75.8 | 85.4 |
| HumanEval | 60.4 | 61.0 |
小型モデル同士では、Qwen 2.5-7Bが知識・数学の分野で高いスコアを出している一方、Gemma 3 4Bはパラメータ数が約半分ながら比較的近い性能を発揮しており、効率の面で優れています。
ライセンス比較
オープンソースLLMを商用利用する場合、ライセンスの確認は非常に重要です。3つのモデルファミリーでライセンスが大きく異なります。
| 項目 | Llama 4 | Gemma 3 | Qwen 2.5 / 3 |
|---|---|---|---|
| ライセンス種別 | Llama 4 Community License | Gemma License | Apache 2.0(一部モデル除く) |
| 商用利用 | ⚠️ 条件付きで可能 | ⚠️ 条件付きで可能 | ✅ 自由(Apache 2.0対象モデル) |
| 主な制約 | MAU 7億超で別途契約が必要 | 競合LLMの開発に使用不可 | 3B・72Bは別ライセンス |
| 派生モデルの命名 | 「Llama」を名前に含める必要あり | 制約あり | 制約なし(Apache 2.0) |
| 競合モデル学習への使用 | ❌ 禁止 | ❌ 禁止 | ✅ 可能(Apache 2.0) |
ライセンス選びのポイント
- 最も自由度が高いのはQwen(Apache 2.0):改変・商用利用・再配布がほぼ無制限。ただしQwen 2.5の3Bと72Bは別ライセンスのため注意
- Llamaは大規模サービスに注意:月間アクティブユーザーが7億人を超えるサービスでは、Metaとの別途契約が必要
- Gemmaは派生モデルにも制約が波及:Gemmaの出力で学習したモデルもGemmaライセンスの対象になる「バイラル条項」がある
用途別おすすめモデルの選び方
GPUが限られた環境で手軽に試したい場合
おすすめ: Gemma 3 4B / Qwen 2.5-3B
小型モデルはメモリ消費が少なく、一般的なPCでも動かせます。特にGemma 3 4Bは、そのサイズからは想像できないほどの性能を発揮します。OllamaやLM Studioを使えば、コマンド一つで手軽に試せます。
日本語タスクを重視する場合
おすすめ: Qwen 2.5シリーズ
Qwenは日本語を含むアジア言語の学習データが豊富で、日本語での応答品質が比較的高い傾向があります。日本語のチャットボットやドキュメント処理には有力な選択肢です。
長文の処理が必要な場合
おすすめ: Llama 4 Scout(最大1,000万トークン)
Llama 4 Scoutは1,000万トークンという圧倒的なコンテキスト長を誇ります。大量のドキュメントを一括で処理したい場合や、長い会話履歴を保持したい場合に最適です。
商用プロダクトに組み込む場合
おすすめ: Qwen(Apache 2.0対象モデル)
Apache 2.0ライセンスは最も自由度が高く、商用利用時の法的リスクが最も低いです。ただし、Qwen 2.5の3Bと72Bモデルは別ライセンスとなるため、使用するモデルサイズごとにライセンスを確認しましょう。
コーディング支援に使いたい場合
おすすめ: Gemma 3 27B / Qwen 2.5-Coder
コーディングベンチマーク(HumanEval等)ではGemmaが高いスコアを出しています。また、Qwenにはコーディングに特化した「Qwen-Coder」シリーズもあり、用途に特化した選択が可能です。
その他の注目オープンソースLLM
Llama・Gemma・Qwen以外にも、注目すべきオープンソースLLMは数多く存在します。ここでは代表的なものを簡単に紹介します。
Mistral / Mixtral(Mistral AI)
フランスのMistral AI社が開発するモデルです。Mistralはコンパクトながら高性能なDenseモデル、MixtralはMoEアーキテクチャを採用した上位モデルです。ヨーロッパ発のAI企業として独自のポジションを築いており、特にヨーロッパ言語でのパフォーマンスに定評があります。ライセンスはApache 2.0で商用利用も可能です。
Phi(Microsoft)
Microsoftが開発する小型・高効率に特化したモデルファミリーです。Phi-3やPhi-4など、パラメータ数が少ないにもかかわらず、大型モデルに匹敵する性能を発揮する「Small Language Model(SLM)」として注目されています。エッジデバイスやモバイル環境での利用に適しています。
DeepSeek(DeepSeek AI)
中国のDeepSeek社が開発するモデルで、特に数学・コーディング・推論の分野で非常に高い性能を示しています。DeepSeek-V3やDeepSeek-R1は、一部のベンチマークでGPT-4クラスのモデルに匹敵する結果を出しており、2025年に大きな話題となりました。
Command R(Cohere)
カナダのCohere社が開発する、RAG(検索拡張生成)に最適化されたモデルです。大量のドキュメントからの情報抽出や、情報源を明示した回答生成(グラウンディング)に強みがあります。企業向けの用途で採用が進んでいます。
オープンソースLLMの世界は競争が激しく、数ヶ月ごとに新しいモデルが登場します。上記以外にも、日本語に特化したSwallow(東京工業大学)やPLaMo(Preferred Networks)など、特定の用途に強いモデルも存在します。
まとめ
今回は、主要なオープンソースLLMであるLlama・Gemma・Qwenの3ファミリーを比較しました。
- Llama(Meta): MoEアーキテクチャによる効率的な推論と、1,000万トークンの超長コンテキストが強み。大規模サービスでの利用には注意が必要
- Gemma(Google): 小型モデルの性能効率が際立つ。140以上の言語に対応し、Google技術基盤の信頼性が魅力
- Qwen(Alibaba): Apache 2.0ライセンスの自由度、日本語を含む多言語性能、豊富なサイズバリエーションが特長
- ライセンスの確認は必須: 商用利用時は各モデルのライセンス条件を必ず確認する
オープンソースLLMの世界は非常に速いスピードで進化しています。「正解」は一つではなく、自分の用途・環境・ライセンス要件に合ったモデルを選ぶことが最も重要です。まずはOllamaなどのツールを使って、気になるモデルを実際に動かしてみるところから始めてみてください。