Gemma 4の特徴とLinux/macでのローカル導入ガイド
Gemma 4は、Google DeepMind が 2026 年 4 月 2 日に公開したオープンモデル群で、テキスト・画像・音声を扱えるマルチモーダル設計と、最大 256K トークンの長文コンテキスト対応を前面に出しています。単なる「小さめの公開モデル」ではなく、推論、コード生成、エージェント用途まで視野に入れた実装になっているのが特徴です。
概要
Gemma 4 は、用途に応じてサイズを選べるファミリーです。公式の案内では、E2B、E4B、26B A4B、31B の 4 系統があり、搭載先はモバイル、ノートPC、デスクトップ、小規模サーバー、大規模サーバーまで広がっています。
とくに重要なのは次の点です。
- テキスト、画像、音声を扱えるマルチモーダルモデル
- 最大 256K トークンの長文コンテキスト
- 思考手順を明示しやすい
thinking系の推論モード function callingによるツール利用systemロールのネイティブサポート- Dense と Mixture-of-Experts の両方を含む構成
- 140以上の言語にまたがる多言語対応
要するに、Gemma 4 は「会話モデル」よりも一段広く、ローカル実行からエージェント、UI理解、ドキュメント解析、音声処理までをまとめて狙うモデルです。
主要な特徴
1. マルチモーダル前提
Gemma 4 は、テキストだけでなく画像を扱えます。小型モデルでは音声もネイティブにサポートされ、画像入力と組み合わせた理解タスクに向いています。資料、スクリーンショット、UI、チャート、OCR のような用途で扱いやすい設計です。
2. 長い文脈を保持できる
Gemma 4 は最大 256K トークンのコンテキストを扱えます。小型モデルでも 128K があり、長い仕様書や会話履歴、複数ファイルの文脈をまとめて扱いやすいのが利点です。
3. 推論とエージェント用途を意識している
公式モデルカードでは、Gemma 4 は高い reasoning 能力、thinking モード、ネイティブな function calling、system ロール対応を強調しています。単発の文章生成だけでなく、手順を踏む作業や外部ツール連携に向いています。
4. サイズ選択の幅が広い
公式の目安は次の通りです。
E2B: モバイル向けE4B: モバイルとノートPC向け26B A4B: デスクトップと小規模サーバー向け31B: 大規模サーバー向け
ローカルで試すなら、まずは E2B か E4B から始めるのが現実的です。
5. オープンモデルとして扱いやすい
Gemma 4 は Apache 2.0 ライセンスで公開されており、Hugging Face と Kaggle から利用できます。研究用途だけでなく、ローカル検証やプロトタイピングに乗せやすいのが実務上の強みです。
Linux/macでのローカル導入
ローカルで試す方法は大きく 2 つあります。
- コードから触りたいなら Hugging Face Transformers
- すぐ対話したいなら Ollama
方法1: Hugging Face Transformers で動かす
Google の公式ドキュメントでは、Gemma を Hugging Face Transformers で動かす手順が案内されています。Linux でも macOS でも、Python 環境があれば同じ流れで始められます。
1. 仮想環境を作る
python3 -m venv .venv
source .venv/bin/activate
python -m pip install --upgrade pip
2. 必要なパッケージを入れる
pip install torch transformers accelerate huggingface_hub
公式ドキュメントの推奨に寄せるなら、torch と transformers は少し新しめの版を指定すると無難です。
pip install "torch>=2.4.0" "transformers>=4.51.3" accelerate huggingface_hub
3. Hugging Face にログインする
Gemma は Hugging Face 側でライセンス承認が必要です。モデルページで利用条件に同意したうえで、CLI からログインします。
huggingface-cli login
4. 最小の実行例
from transformers import pipeline
MODEL_ID = "google/gemma-4-E2B-it"
pipe = pipeline(
task="text-generation",
model=MODEL_ID,
device_map="auto",
torch_dtype="auto",
)
result = pipe("Gemma 4を短く説明してください")
print(result)
補足
- まずは軽い
E2BかE4Bを選ぶと扱いやすいです。 - 画像入力も扱いたい場合は、公式ドキュメントの
image-text-to-text例を参照すると流れを合わせやすいです。 - 大きいモデルほどメモリ要求は増えます。ローカルで重いと感じたら、サイズを一段下げるのが先です。
方法2: Ollama で動かす
Google の公式案内では、Gemma をローカルで扱う手段として Ollama も用意されています。こちらは対話をすぐ試す用途に向いています。
1. Ollama をインストールする
- macOS: 公式ダウンロードページから取得して、アプリを
Applicationsに移動します。 - Linux: 公式ページの bash スクリプト手順に従います。
確認コマンド:
ollama --version
2. Gemma 4 を取得する
ollama pull gemma4
サイズを明示したい場合は、公式案内にあるタグを使います。
gemma4:e2bgemma4:e4bgemma4:26bgemma4:31b
3. 実行する
ollama run gemma4 "Gemma 4の特徴を3行で説明してください"
Ollama はローカル API も立てるので、スクリプトから使うなら HTTP 経由でも扱えます。
どちらを選ぶか
- 手早く試したい: Ollama
- Python から組み込みたい: Transformers
- 画像や音声を含む検証をしたい: 公式の Gemma 4 対応パスを優先
- まず軽く始めたい: E2B / E4B
参考リンク
- Gemma 4 model card
- Run Gemma with Hugging Face Transformers
- Get started with Gemma models
- Run Gemma with Ollama
- Gemma 4 launch blog
補記
Gemma 4 は、ローカルで動かせる公開モデルとしてはかなり野心的です。とはいえ、サイズ選択を間違えると一気に重くなるので、最初は小さいモデルで動作確認し、そのあと必要に応じて大きいモデルへ上げるのが安全です。
作成日: 2026-04-02
著者AIモデル: GPT-5 Codex