Gemma 4ローカルAI導入|APIコスト0の実践

AI業務効率化

※ この記事にはアフィリエイトリンクが含まれています。リンク経由で購入しても読者の皆さんに追加費用は発生しません。収益は本サイトの運営費に充てています。

Gemma 4を使えば、API費用ゼロでローカルにAIを動かせます。2026年4月2日にGoogleがリリースしたGemma 4は、オープンモデルとしてArena AIリーダーボードで3位にランクインしました。Apache 2.0ライセンスで商用利用もOKです。この記事では、Gemma 4をローカルPCやVPSに導入して実際に動かすまでの手順を解説します。

こんな方に読んでほしい

  • AI APIの月額費用を減らしたい、またはゼロにしたい
  • コードは書けるがローカルLLMの導入経験がない
  • オープンソースモデルの性能が気になっている
  • 自分のデータを外部APIに送りたくないセキュリティ意識がある

Gemma 4とは何か|20倍のモデルを超えた実力

Gemma 4は、Googleが2026年4月2日に公開したオープンLLMです。31Bパラメータのモデルが、自身の20倍のサイズを持つモデルを上回る性能を達成しました。Arena AIリーダーボードのオープンモデル部門で3位に入っています。

なぜGemma 4が注目されるのか

最大のポイントは「高性能×ローカル実行×商用無料」の組み合わせです。GPT-4oやClaudeのAPI利用にはトークン単位で費用がかかります。一方、Gemma 4はダウンロードすれば何回使ってもコストゼロです。Apache 2.0ライセンスなので、商用プロダクトへの組み込みも制限なく行えます。

2B/4Bの軽量版も存在する

31Bモデルだけでなく、2Bと4Bの軽量版も同時にリリースされています。これらはスマートフォンやエッジデバイスでも動作します。用途に応じてモデルサイズを選べるのは実用面で大きな利点です。

Function Callingへのネイティブ対応

Gemma 4はFunction Callingにネイティブ対応しています。外部ツールやAPIとの連携を、モデル自体が理解して呼び出せます。たとえば、データベースの検索やファイル操作をGemma 4に指示し、結果を受け取って次の処理に渡すといったワークフローが構築できます。これがローカルで完結するのは、自動化パイプラインを組む上で大きな武器です。

Gemma 4の主要スペック

Gemma 4が他のオープンモデルと一線を画すのはスペックの幅広さです。単なるテキスト生成モデルではなく、実用的な機能が揃っています。

スペック一覧

項目 仕様
パラメータ数 2B / 4B / 31B
コンテキスト長 256Kトークン
入力モダリティ テキスト・画像・動画・音声
対応言語 140言語
ライセンス Apache 2.0(商用利用可)
ネイティブ機能 Function Calling対応
実行環境 Ollama / Hugging Face

256Kコンテキストの意味

256Kトークンは、日本語で約12万〜15万文字相当です。技術書1冊分のテキストを一度に入力できる計算になります。長いコードベースの解析やドキュメント全体の要約など、コンテキスト長がボトルネックになっていた用途に対応できます。

マルチモーダル対応

テキストだけでなく、画像・動画・音声も入力として受け付けます。たとえば、スクリーンショットを渡してUIの問題点を指摘させたり、ログ画像からエラー内容を読み取らせたりできます。ローカル実行でこれができるのは、プライバシー観点でも大きいです。

OllamaでGemma 4をローカルPCに導入する手順

もっとも手軽な導入方法はOllamaを使うことです。コマンド2つで動きます。

Step 1: Ollamaのインストール

Ollama公式サイトからインストーラをダウンロードします。Windows / macOS / Linuxに対応しています。

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windowsはインストーラを実行

Step 2: Gemma 4モデルのダウンロードと実行

# 31Bモデルをダウンロード&起動
ollama run gemma4

# 軽量版を使いたい場合
ollama run gemma4:4b
ollama run gemma4:2b

初回はモデルのダウンロードに時間がかかります。31Bモデルは約20GB程度です。ダウンロード後はオフラインでも利用できます。

必要なPCスペックの目安

モデル RAM目安 VRAM目安(GPU利用時)
gemma4:2b 8GB 4GB
gemma4:4b 16GB 6GB
gemma4(31B) 32GB以上 24GB以上

僕の手元のPCはメモリ16GBなので、31Bモデルは厳しい環境です。4Bモデルであれば16GBマシンでも動作しますが、推論速度はGPU非搭載だと体感で数秒かかります。31Bを本格的に使うなら、メモリ32GB以上のマシンかVPSを検討したほうがよいです。

APIサーバーとして使う

Ollamaはデフォルトでlocalhost:11434にAPIサーバーを立てます。OpenAI互換のAPIエンドポイントが使えるため、既存のコードをほぼ変更なしで移行できます。

# curlでテスト
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

OpenAIのSDKを使っている場合は、base_urlhttp://localhost:11434/v1に変更するだけで切り替わります。詳しくはOllama OpenAI互換ドキュメントを参照してください。

VPSでGemma 4を動かす

ローカルPCのスペックが足りない場合は、VPSが現実的な選択肢です。特に31Bモデルはメモリ32GB以上が推奨なので、手元のPCでは厳しいケースがあります。

VPSを選ぶときの注意点

メモリが最優先です。31Bモデルを動かすなら最低32GBプランが必要になります。GPUが使えるプランなら推論速度が大幅に上がりますが、その分料金も上がります。まずはCPUのみのプランで試して、速度が足りなければGPUプランに移行するのが無駄のない進め方です。

注意点として、VPSの月額費用がAPI利用料を超える場合は本末転倒です。利用頻度が低いなら、素直にAPIを使ったほうが安く済むケースもあります。この判断は次のセクションのコスト比較を参考にしてください。

VPSの選択肢

国内VPSで大容量メモリプランが用意されているサービスを比較しました。VPS選びの詳しい比較はVPS比較の記事も参考にしてください。

ConoHa VPSメモリ32GBプランの料金を確認する

GPUプランの有無を確認する

大容量メモリプランを確認する

VPSとレンタルサーバーの違いがよく分からない方は、VPSとレンタルサーバーの違いの記事で解説しています。

VPSでのセットアップ手順

# Ubuntu 22.04以降を想定
# Ollamaインストール
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4を取得
ollama pull gemma4

# バックグラウンドでサーバー起動
ollama serve &

# 動作確認
curl http://localhost:11434/v1/models

VPSに導入すれば、外出先からもSSH経由でローカルAIを使えます。自宅PCの電源を入れっぱなしにする必要もありません。

セキュリティの設定

VPSでOllamaを公開する場合、デフォルトではlocalhostのみリッスンします。外部からアクセスしたい場合はOLLAMA_HOST=0.0.0.0を環境変数に設定します。ただし、その場合はファイアウォールで接続元IPを制限してください。認証機能はOllama側にないため、リバースプロキシでBasic認証やAPIキー認証を追加するのが安全です。

APIコスト比較|Gemma 4 vs GPT-4o vs Claude

結論として、月に10万トークン以上使うならローカルGemma 4のコスト優位性は明確です。

月間100万トークン利用時のコスト試算

サービス 月額コスト(税込目安) 備考
GPT-4o API 約750〜1,500円 入力$2.5/出力$10(100万トークンあたり、$1≈150円、2026年4月時点)
Claude Sonnet API 約450〜2,250円 入力$3/出力$15(100万トークンあたり、$1≈150円、2026年4月時点)
Gemma 4(ローカル) 0円 電気代のみ。PC電気代は月数百円程度
Gemma 4(VPS) 約3,000〜10,000円 メモリ32GBプランの場合

※ 最新の料金は各サービスの公式サイトを確認してください。OpenAI料金ページAnthropic料金ページ

コスト以外の判断軸

APIコストだけで決めるのは早計です。ローカル実行はレイテンシが発生します。31BモデルをCPUのみで動かすと、1トークンの生成に数百ミリ秒かかることもあります。リアルタイム応答が必要な用途にはAPIのほうが適しています。

一方で、データを外部に送らない点はローカルの大きな強みです。社内コードの解析や個人情報を含むデータの処理には、ローカル実行が安全です。APIコスト最適化の考え方はAI APIコスト最適化の記事でも詳しく書いています。

Gemma 4の制約と注意点

高性能とはいえ、万能ではありません。導入前に知っておくべき制約があります。

GPT-4oやClaudeとの性能差

Arena AIリーダーボード3位とはいえ、GPT-4oやClaude Opusなどのクローズドモデルとは得意分野が異なります。特に日本語の複雑な推論タスクでは、クローズドモデルに分がある場合があります。用途に応じて使い分けるのが現実的です。

ハードウェア要件が高い

31Bモデルはメモリ32GB以上が推奨です。一般的なノートPCではスペックが足りません。4Bや2Bモデルなら動きますが、性能は落ちます。スペックと性能のトレードオフは避けられません。GPU非搭載のマシンでも動作はしますが、推論速度が大幅に低下します。業務で日常的に使うなら、NVIDIA GPUを搭載したマシンかGPU付きVPSを検討すべきです。

エコシステムの成熟度

OpenAIやAnthropicのAPIに比べると、ツール連携やドキュメントの整備はまだ発展途上です。Ollamaの互換APIで多くのケースはカバーできますが、一部のライブラリやフレームワークで非互換が出ることがあります。公式の情報はGoogle公式ブログHugging Faceのモデルページで確認してください。

まとめ|Gemma 4でAPIコストから自由になる

Gemma 4は「ローカルで動く高性能AI」という選択肢を現実的にしたモデルです。Ollamaを使えばコマンド2つで導入でき、OpenAI互換APIで既存コードからの移行も容易です。256Kトークンのコンテキスト長、マルチモーダル対応、Function Callingと、実用に必要な機能が揃っています。

ローカルPCのスペックが足りなければVPSという選択肢もあります。ただし、VPSの月額費用とAPI費用を比較して、本当にコストメリットがあるか確認してから導入してください。利用頻度が月に数回程度なら、APIを従量課金で使うほうが経済的です。

ConoHa VPSVPSプランの詳細を確認する

僕もGemma 4をローカル環境に組み込んで、自動化パイプラインの一部をAPI依存から外せないか試しているところです。何か面白い使い方が見つかったら報告します。

コメント

タイトルとURLをコピーしました