Gemma 4の特徴とLinux/macでのローカル導入ガイド

Gemma 4は、Google DeepMind が 2026 年 4 月 2 日に公開したオープンモデル群で、テキスト・画像・音声を扱えるマルチモーダル設計と、最大 256K トークンの長文コンテキスト対応を前面に出しています。単なる「小さめの公開モデル」ではなく、推論、コード生成、エージェント用途まで視野に入れた実装になっているのが特徴です。

概要

Gemma 4 は、用途に応じてサイズを選べるファミリーです。公式の案内では、E2B、E4B、26B A4B、31B の 4 系統があり、搭載先はモバイル、ノートPC、デスクトップ、小規模サーバー、大規模サーバーまで広がっています。

とくに重要なのは次の点です。

テキスト、画像、音声を扱えるマルチモーダルモデル
最大 256K トークンの長文コンテキスト
思考手順を明示しやすい thinking 系の推論モード
function calling によるツール利用
system ロールのネイティブサポート
Dense と Mixture-of-Experts の両方を含む構成
140以上の言語にまたがる多言語対応

要するに、Gemma 4 は「会話モデル」よりも一段広く、ローカル実行からエージェント、UI理解、ドキュメント解析、音声処理までをまとめて狙うモデルです。

主要な特徴

1. マルチモーダル前提

Gemma 4 は、テキストだけでなく画像を扱えます。小型モデルでは音声もネイティブにサポートされ、画像入力と組み合わせた理解タスクに向いています。資料、スクリーンショット、UI、チャート、OCR のような用途で扱いやすい設計です。

2. 長い文脈を保持できる

Gemma 4 は最大 256K トークンのコンテキストを扱えます。小型モデルでも 128K があり、長い仕様書や会話履歴、複数ファイルの文脈をまとめて扱いやすいのが利点です。

3. 推論とエージェント用途を意識している

公式モデルカードでは、Gemma 4 は高い reasoning 能力、thinking モード、ネイティブな function calling、system ロール対応を強調しています。単発の文章生成だけでなく、手順を踏む作業や外部ツール連携に向いています。

4. サイズ選択の幅が広い

公式の目安は次の通りです。

E2B: モバイル向け
E4B: モバイルとノートPC向け
26B A4B: デスクトップと小規模サーバー向け
31B: 大規模サーバー向け

ローカルで試すなら、まずは E2B か E4B から始めるのが現実的です。

5. オープンモデルとして扱いやすい

Gemma 4 は Apache 2.0 ライセンスで公開されており、Hugging Face と Kaggle から利用できます。研究用途だけでなく、ローカル検証やプロトタイピングに乗せやすいのが実務上の強みです。

Linux/macでのローカル導入

ローカルで試す方法は大きく 2 つあります。

コードから触りたいなら Hugging Face Transformers
すぐ対話したいなら Ollama

方法1: Hugging Face Transformers で動かす

Google の公式ドキュメントでは、Gemma を Hugging Face Transformers で動かす手順が案内されています。Linux でも macOS でも、Python 環境があれば同じ流れで始められます。

1. 仮想環境を作る

python3 -m venv .venv
source .venv/bin/activate
python -m pip install --upgrade pip

2. 必要なパッケージを入れる

pip install torch transformers accelerate huggingface_hub

公式ドキュメントの推奨に寄せるなら、torch と transformers は少し新しめの版を指定すると無難です。

pip install "torch>=2.4.0" "transformers>=4.51.3" accelerate huggingface_hub

3. Hugging Face にログインする

Gemma は Hugging Face 側でライセンス承認が必要です。モデルページで利用条件に同意したうえで、CLI からログインします。

huggingface-cli login

4. 最小の実行例

from transformers import pipeline

MODEL_ID = "google/gemma-4-E2B-it"

pipe = pipeline(
    task="text-generation",
    model=MODEL_ID,
    device_map="auto",
    torch_dtype="auto",
)

result = pipe("Gemma 4を短く説明してください")
print(result)

補足

まずは軽い E2B か E4B を選ぶと扱いやすいです。
画像入力も扱いたい場合は、公式ドキュメントの image-text-to-text 例を参照すると流れを合わせやすいです。
大きいモデルほどメモリ要求は増えます。ローカルで重いと感じたら、サイズを一段下げるのが先です。

方法2: Ollama で動かす

Google の公式案内では、Gemma をローカルで扱う手段として Ollama も用意されています。こちらは対話をすぐ試す用途に向いています。

1. Ollama をインストールする

macOS: 公式ダウンロードページから取得して、アプリを Applications に移動します。
Linux: 公式ページの bash スクリプト手順に従います。

確認コマンド:

ollama --version

2. Gemma 4 を取得する

ollama pull gemma4

サイズを明示したい場合は、公式案内にあるタグを使います。

gemma4:e2b
gemma4:e4b
gemma4:26b
gemma4:31b

3. 実行する

ollama run gemma4 "Gemma 4の特徴を3行で説明してください"

Ollama はローカル API も立てるので、スクリプトから使うなら HTTP 経由でも扱えます。

どちらを選ぶか

手早く試したい: Ollama
Python から組み込みたい: Transformers
画像や音声を含む検証をしたい: 公式の Gemma 4 対応パスを優先
まず軽く始めたい: E2B / E4B

参考リンク

補記

Gemma 4 は、ローカルで動かせる公開モデルとしてはかなり野心的です。とはいえ、サイズ選択を間違えると一気に重くなるので、最初は小さいモデルで動作確認し、そのあと必要に応じて大きいモデルへ上げるのが安全です。

作成日: 2026-04-02
著者AIモデル: GPT-5 Codex