※ この記事にはアフィリエイトリンクが含まれています。リンク経由で購入しても読者の皆さんに追加費用は発生しません。収益は本サイトの運営費に充てています。
Gemma 4を使えば、API費用ゼロでローカルにAIを動かせます。2026年4月2日にGoogleがリリースしたGemma 4は、オープンモデルとしてArena AIリーダーボードで3位にランクインしました。Apache 2.0ライセンスで商用利用もOKです。この記事では、Gemma 4をローカルPCやVPSに導入して実際に動かすまでの手順を解説します。
こんな方に読んでほしい
- AI APIの月額費用を減らしたい、またはゼロにしたい
- コードは書けるがローカルLLMの導入経験がない
- オープンソースモデルの性能が気になっている
- 自分のデータを外部APIに送りたくないセキュリティ意識がある
Gemma 4とは何か|20倍のモデルを超えた実力
Gemma 4は、Googleが2026年4月2日に公開したオープンLLMです。31Bパラメータのモデルが、自身の20倍のサイズを持つモデルを上回る性能を達成しました。Arena AIリーダーボードのオープンモデル部門で3位に入っています。
なぜGemma 4が注目されるのか
最大のポイントは「高性能×ローカル実行×商用無料」の組み合わせです。GPT-4oやClaudeのAPI利用にはトークン単位で費用がかかります。一方、Gemma 4はダウンロードすれば何回使ってもコストゼロです。Apache 2.0ライセンスなので、商用プロダクトへの組み込みも制限なく行えます。
2B/4Bの軽量版も存在する
31Bモデルだけでなく、2Bと4Bの軽量版も同時にリリースされています。これらはスマートフォンやエッジデバイスでも動作します。用途に応じてモデルサイズを選べるのは実用面で大きな利点です。
Function Callingへのネイティブ対応
Gemma 4はFunction Callingにネイティブ対応しています。外部ツールやAPIとの連携を、モデル自体が理解して呼び出せます。たとえば、データベースの検索やファイル操作をGemma 4に指示し、結果を受け取って次の処理に渡すといったワークフローが構築できます。これがローカルで完結するのは、自動化パイプラインを組む上で大きな武器です。
Gemma 4の主要スペック
Gemma 4が他のオープンモデルと一線を画すのはスペックの幅広さです。単なるテキスト生成モデルではなく、実用的な機能が揃っています。
スペック一覧
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 2B / 4B / 31B |
| コンテキスト長 | 256Kトークン |
| 入力モダリティ | テキスト・画像・動画・音声 |
| 対応言語 | 140言語 |
| ライセンス | Apache 2.0(商用利用可) |
| ネイティブ機能 | Function Calling対応 |
| 実行環境 | Ollama / Hugging Face |
256Kコンテキストの意味
256Kトークンは、日本語で約12万〜15万文字相当です。技術書1冊分のテキストを一度に入力できる計算になります。長いコードベースの解析やドキュメント全体の要約など、コンテキスト長がボトルネックになっていた用途に対応できます。
マルチモーダル対応
テキストだけでなく、画像・動画・音声も入力として受け付けます。たとえば、スクリーンショットを渡してUIの問題点を指摘させたり、ログ画像からエラー内容を読み取らせたりできます。ローカル実行でこれができるのは、プライバシー観点でも大きいです。
OllamaでGemma 4をローカルPCに導入する手順
もっとも手軽な導入方法はOllamaを使うことです。コマンド2つで動きます。
Step 1: Ollamaのインストール
Ollama公式サイトからインストーラをダウンロードします。Windows / macOS / Linuxに対応しています。
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windowsはインストーラを実行
Step 2: Gemma 4モデルのダウンロードと実行
# 31Bモデルをダウンロード&起動
ollama run gemma4
# 軽量版を使いたい場合
ollama run gemma4:4b
ollama run gemma4:2b
初回はモデルのダウンロードに時間がかかります。31Bモデルは約20GB程度です。ダウンロード後はオフラインでも利用できます。
必要なPCスペックの目安
| モデル | RAM目安 | VRAM目安(GPU利用時) |
|---|---|---|
| gemma4:2b | 8GB | 4GB |
| gemma4:4b | 16GB | 6GB |
| gemma4(31B) | 32GB以上 | 24GB以上 |
僕の手元のPCはメモリ16GBなので、31Bモデルは厳しい環境です。4Bモデルであれば16GBマシンでも動作しますが、推論速度はGPU非搭載だと体感で数秒かかります。31Bを本格的に使うなら、メモリ32GB以上のマシンかVPSを検討したほうがよいです。
APIサーバーとして使う
Ollamaはデフォルトでlocalhost:11434にAPIサーバーを立てます。OpenAI互換のAPIエンドポイントが使えるため、既存のコードをほぼ変更なしで移行できます。
# curlでテスト
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [{"role": "user", "content": "Hello"}]
}'
OpenAIのSDKを使っている場合は、base_urlをhttp://localhost:11434/v1に変更するだけで切り替わります。詳しくはOllama OpenAI互換ドキュメントを参照してください。
VPSでGemma 4を動かす
ローカルPCのスペックが足りない場合は、VPSが現実的な選択肢です。特に31Bモデルはメモリ32GB以上が推奨なので、手元のPCでは厳しいケースがあります。
VPSを選ぶときの注意点
メモリが最優先です。31Bモデルを動かすなら最低32GBプランが必要になります。GPUが使えるプランなら推論速度が大幅に上がりますが、その分料金も上がります。まずはCPUのみのプランで試して、速度が足りなければGPUプランに移行するのが無駄のない進め方です。
注意点として、VPSの月額費用がAPI利用料を超える場合は本末転倒です。利用頻度が低いなら、素直にAPIを使ったほうが安く済むケースもあります。この判断は次のセクションのコスト比較を参考にしてください。
VPSの選択肢
国内VPSで大容量メモリプランが用意されているサービスを比較しました。VPS選びの詳しい比較はVPS比較の記事も参考にしてください。
ConoHa VPSでメモリ32GBプランの料金を確認する
でGPUプランの有無を確認する
で大容量メモリプランを確認する
VPSとレンタルサーバーの違いがよく分からない方は、VPSとレンタルサーバーの違いの記事で解説しています。
VPSでのセットアップ手順
# Ubuntu 22.04以降を想定
# Ollamaインストール
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 4を取得
ollama pull gemma4
# バックグラウンドでサーバー起動
ollama serve &
# 動作確認
curl http://localhost:11434/v1/models
VPSに導入すれば、外出先からもSSH経由でローカルAIを使えます。自宅PCの電源を入れっぱなしにする必要もありません。
セキュリティの設定
VPSでOllamaを公開する場合、デフォルトではlocalhostのみリッスンします。外部からアクセスしたい場合はOLLAMA_HOST=0.0.0.0を環境変数に設定します。ただし、その場合はファイアウォールで接続元IPを制限してください。認証機能はOllama側にないため、リバースプロキシでBasic認証やAPIキー認証を追加するのが安全です。
APIコスト比較|Gemma 4 vs GPT-4o vs Claude
結論として、月に10万トークン以上使うならローカルGemma 4のコスト優位性は明確です。
月間100万トークン利用時のコスト試算
| サービス | 月額コスト(税込目安) | 備考 |
|---|---|---|
| GPT-4o API | 約750〜1,500円 | 入力$2.5/出力$10(100万トークンあたり、$1≈150円、2026年4月時点) |
| Claude Sonnet API | 約450〜2,250円 | 入力$3/出力$15(100万トークンあたり、$1≈150円、2026年4月時点) |
| Gemma 4(ローカル) | 0円 | 電気代のみ。PC電気代は月数百円程度 |
| Gemma 4(VPS) | 約3,000〜10,000円 | メモリ32GBプランの場合 |
※ 最新の料金は各サービスの公式サイトを確認してください。OpenAI料金ページ、Anthropic料金ページ
コスト以外の判断軸
APIコストだけで決めるのは早計です。ローカル実行はレイテンシが発生します。31BモデルをCPUのみで動かすと、1トークンの生成に数百ミリ秒かかることもあります。リアルタイム応答が必要な用途にはAPIのほうが適しています。
一方で、データを外部に送らない点はローカルの大きな強みです。社内コードの解析や個人情報を含むデータの処理には、ローカル実行が安全です。APIコスト最適化の考え方はAI APIコスト最適化の記事でも詳しく書いています。
Gemma 4の制約と注意点
高性能とはいえ、万能ではありません。導入前に知っておくべき制約があります。
GPT-4oやClaudeとの性能差
Arena AIリーダーボード3位とはいえ、GPT-4oやClaude Opusなどのクローズドモデルとは得意分野が異なります。特に日本語の複雑な推論タスクでは、クローズドモデルに分がある場合があります。用途に応じて使い分けるのが現実的です。
ハードウェア要件が高い
31Bモデルはメモリ32GB以上が推奨です。一般的なノートPCではスペックが足りません。4Bや2Bモデルなら動きますが、性能は落ちます。スペックと性能のトレードオフは避けられません。GPU非搭載のマシンでも動作はしますが、推論速度が大幅に低下します。業務で日常的に使うなら、NVIDIA GPUを搭載したマシンかGPU付きVPSを検討すべきです。
エコシステムの成熟度
OpenAIやAnthropicのAPIに比べると、ツール連携やドキュメントの整備はまだ発展途上です。Ollamaの互換APIで多くのケースはカバーできますが、一部のライブラリやフレームワークで非互換が出ることがあります。公式の情報はGoogle公式ブログやHugging Faceのモデルページで確認してください。
まとめ|Gemma 4でAPIコストから自由になる
Gemma 4は「ローカルで動く高性能AI」という選択肢を現実的にしたモデルです。Ollamaを使えばコマンド2つで導入でき、OpenAI互換APIで既存コードからの移行も容易です。256Kトークンのコンテキスト長、マルチモーダル対応、Function Callingと、実用に必要な機能が揃っています。
ローカルPCのスペックが足りなければVPSという選択肢もあります。ただし、VPSの月額費用とAPI費用を比較して、本当にコストメリットがあるか確認してから導入してください。利用頻度が月に数回程度なら、APIを従量課金で使うほうが経済的です。
ConoHa VPSでVPSプランの詳細を確認する
僕もGemma 4をローカル環境に組み込んで、自動化パイプラインの一部をAPI依存から外せないか試しているところです。何か面白い使い方が見つかったら報告します。


コメント