【Ollama】ローカルLLM:Gemma 3 / Phi-4 / Llama 4をビジネスPCで動かしてみた【2026年度】

  • URLをコピーしました!

ローカルで動くAIが、いよいよ「実用品」になってきましたね。

クラウドへの問い合わせが当たり前だった時代から、自分のPCの中だけで完結する推論へ——この変化は思っているより静かに、でも確実に進んでいます。 特に2026年現在、ビジネスノートPC一台でGPT-4クラスに迫る処理ができるという現実は、コスト・セキュリティ・応答速度のすべてに関わってきます。

「でも実際、自分のPCで動かせるモデルってどれ? 速度は? 日本語はちゃんと使える?」

そういった疑問を持つ方に向けて、Ollama v0.18.2を使い、Gemma 3・Phi-4・Llama 4という現代を代表する3つのモデルファミリーを、標準的なビジネスノートPC環境(Core i7 / 32GB RAM / NVIDIA Quadro T2000 4GB VRAM)で徹底検証しました。 速度、日本語品質、業務への適性、そして企業導入の経済合理性まで、まとめてお届けします。

ぜひ最後までご覧ください。


目次

Ollama v0.18.2 ── 「推論エンジン」から「プラットフォーム」へ

v0.18.xで何が変わったか

Ollamaは2023年の登場以来、ローカルLLM実行のデファクトスタンダードとして定着してきました。 v0.18.2では、その役割がひとまわり大きくなっています。

単にモデルを動かすツールではなく、外部エージェントや業務ツールとつなぐ「プラットフォームハブ」としての機能が前面に出てきたのが、このバージョンの最大の変化です。

新たに加わったollama launchコマンドにより、Claude CodeやOpenClawといった外部エージェントとの連携がワンコマンドで完結するようになりました。 これまで複雑な設定が必要だった「バックグラウンドで自律的に動くAIワークフロー」が、標準機能として普通に使えます。

主要機能をまとめると、以下のとおりです。

機能できること
ollama launchOpenClaw等の外部エージェントとの即時連携・環境自動構築
OpenClaw統合WhatsApp・Slack・Discord等のメッセージング基盤との接続
ウェブ検索プラグインローカルモデルにリアルタイム情報取得能力を追加
GoベースのベンチマークTTFT・スループット・メモリ消費の精密計測
ROCm 7 / 7.2サポート最新AMD Radeon/Instinctハードウェアでのネイティブ加速

OpenClaw:「回答」から「タスク遂行」へ

OpenClawは、ローカルLLMの付加価値を大きく変えるコンポーネントです。

たとえば、Slackで特定のメンションが来たことをトリガーに、ローカルのGemma 3がコードレビューを行い、その結果をGitHubへプルリクエストとして送信する——こういった一連の動作が、クラウドを一切介さずに完結します。

エージェントとして動かすには、最低64kトークンのコンテキストウィンドウを確保しておくことが推奨されています。 複数ステップの推論で過去の文脈を保持するために必要な要件ですね。


「4GB VRAMの壁」── ハードウェアがモデル選択を決める

GPUオフロードとCPUフォールバックの差

ローカル推論の体験を左右するのは、パラメータ数よりも物理的なVRAM容量です。

モデルの重みがVRAMに収まり切るかどうかで、速度は文字通り桁が変わります。 4GBのVRAMで動かした場合の実測値がこちらです。

モデルQ4量子化サイズ推論速度使用感
Gemma 3 4B約3.3 GB22〜25 tok/sリアルタイムで即応答
Gemma 3 12B約8.1 GB4〜6 tok/s待ち時間が発生
Phi-4 14B約9.1 GB3〜3.4 tok/s非同期処理向け

Gemma 3 4BはVRAMに完全に収まるため、全レイヤーをGPU上で処理できます。 一方、12B・14Bは容量を超えた分をシステムRAMとCPUで処理する「CPUフォールバック(スプリット)」が発生し、速度は4分の1以下に落ちます。

メモリ帯域幅という見落とされがちな要素

速度を制限するのは演算能力(TFLOPS)だけではありません。 メモリ帯域幅(GB/s)も同様に、トークン生成速度の上限を決めます。

Apple Silicon(M4 Max等)がローカルAIに強いとされる理由は、メモリバス帯域が400 GB/s以上あることにあります。 標準的なノートPCのDDR4/DDR5デュアルチャネルは50〜100 GB/s程度なので、大型モデルを動かしたときの差が如実に出ます。

モデル選択の実践的な指針

この「4GBの壁」が、実際の選択基準を明確にしてくれます。

用途推奨モデルクラス理由
リアルタイムチャット・文章補助4Bクラス速度最優先
要約・コード生成・詳細分析12〜14Bクラス精度優先、即時性は二の次

Google Gemma 3 ── 小さいのに長文も画像もこなせる理由

ハイブリッド・アテンションと128Kコンテキスト

Gemma 3は2025年3月にリリースされた、GoogleのGeminiシリーズの技術をオープンウェイトに蒸留したモデルファミリーです。

特筆すべきアーキテクチャ上の特徴は、128,000トークンという長大なコンテキストを効率的に処理する「ハイブリッド・アテンション」です。

全レイヤーで全トークンを参照する従来の設計とは異なり、Gemma 3は「5レイヤーのスライディングウィンドウ・アテンション(近傍のみ参照)+1レイヤーのグローバル・アテンション(全域参照)」を5:1パターンで交互に配置しています。

この設計により、KVキャッシュのメモリ消費量は従来のフルアテンションモデルと比べて最大85%削減されました。 32GBのRAMを持つ標準的なビジネスPCでも、長い業務文書や大きなコードベースを一度にコンテキストに含めた安定した推論が実現できます。

4Bと12Bの使い分け

2つのモデルの特性を整理しておきましょう。

特性Gemma 3 4BGemma 3 12B
推奨環境4GB+ VRAM搭載ノートPC8GB+ VRAMまたは32GB+ RAM
Q4量子化サイズ約3.3 GB約8.1 GB
強み速度・画像認識・日常業務論理推論・要約・翻訳
日本語品質自然で十分実用的高度かつ詳細

4Bはテキストだけでなく画像入力にも対応しています。 スキャンした文書やプレゼン資料からの情報抽出などで活躍します。

4Bの弱点は、複雑な指示でのハルシネーション(もっともらしい嘘)が上位モデルより発生しやすい点です。 正確性が求められるタスクでは、12Bを使うか、後述するRAG技術で外部知識を注入することが必要になります。


Microsoft Phi-4 ── 「量より質」の学習が生んだ論理エンジン

o3-miniからの蒸留と合成データ

Phi-4はMicrosoft Researchが開発した14Bモデルで、「データの質」を最優先した設計思想を体現しています。

学習データには、OpenAIのo3-miniなどトップティアモデルが生成した高品質な推論プロセス(Chain-of-Thought)を含む合成データが用いられています。 このため、モデルは単に次のトークンを予測するだけでなく、問題を解くための「論理的思考ステップ」を内面化しています。

技術レポートによれば、Phi-4はAIME 2025(アメリカ数学オリンピック予選レベル)において、14Bというサイズで671Bの巨大モデルDeepSeek-R1に匹敵する精度を達成しています。

Phi-4が輝く業務シーン

エクセル数式の自動生成、SQLクエリの構築、複雑なロジックを伴うデータ分析——こうした構造化された知能が求められる業務では、現行ローカルモデルの中でトップクラスの実力を発揮します。

日本語での課題と現実的な対策

Phi-4の弱点は英語偏重の学習データによる日本語品質のばらつきです。 Gemma 3が140以上の言語で高い一貫性を示すのに対し、Phi-4は日本語での語彙が不自然になる場面が見受けられます。

ただし2026年現在、コミュニティによる日本語特化型ファインチューニングモデルやLoRAアダプターが多数提供されており、これらを組み合わせることで補完が可能です。

ビジネス実務での現実解としては、英語で書かれた技術文書をPhi-4の論理エンジンで解析し、翻訳レイヤーを通して日本語出力するパイプラインが効果的です。


Meta Llama 4 Scout ── 109Bで動く、でもノートPCには早すぎる?

MoEアーキテクチャの仕組みと恩恵

2025年4月に発表されたLlama 4 Scout(109B)は、ローカルAIの常識を揺るがすモデルです。 採用しているのは「Mixture-of-Experts(MoE)」アーキテクチャ。

総パラメータは109Bですが、各トークン処理時にアクティブになるのは17B分だけです。 計算コストを17Bモデル相当に抑えながら、100Bクラスの広大な知識ベースと推論能力を使える設計になっています。

ハイエンドデータセンター向けGPU(H100等)では140 tok/sを超えるスループットが出ます。

ノートPCにおける「メモリの壁」

しかし、MoEの問題点があります。 推論時の計算量は少なくても、重みの選択を瞬時に行うために、109B全パラメータをRAM上に乗せておく必要があるのです。

量子化形式別に必要なメモリをまとめると、こうなります。

量子化形式必要メモリ32GB PCでの実行
FP16(標準)約218 GB不可
Q8_0(高画質)約114 GB不可
Q4_K_M(標準)約60 GB不可(64GB搭載機なら可)
1.78-bit(超高圧縮)約34 GBメモリを空けて辛うじて起動

32GBのPCでScoutを動かすには1.5〜1.78ビットという極限の量子化が必要で、この水準では本来の109Bとしての実力は発揮できません。 現時点では128GB以上のメモリを積んだデスクトップ機やApple M4 Ultra搭載機向けのツールと考えるのが現実的です。

1000万トークンのコンテキストが意味すること

Scoutが持つもう一つの革新が、1,000万トークンという桁外れのコンテキストウィンドウです。

数千ページの法務文書や数十万行のレガシーコードベースを、一つのプロンプトに丸ごと入れられます。 従来のRAG技術が抱えていた「どの部分を検索してくるか」という検索精度の問題を、文書全体を俯瞰することで原理的に解決してしまう発想ですね。


日本語ビジネス業務での品質比較

タスク別の実力差

日本語Q&A・コード生成・要約・創作の4タスクで検証した結果をまとめます。

タスクGemma 3 4BGemma 3 12BPhi-4 14B
日本語Q&A短文なら正確、長文は曖昧詳細で文脈把握が強い論理的だが日本語が硬い
コード生成基本構文は可複雑なクラス設計に対応最も正確でエラーが少ない
文書要約箇条書きが限界ニュアンスを保ちながら圧縮構造化された分析的要約
創作・アイデア語彙がやや単調多彩でクリエイティブ論理的すぎて面白みに欠ける

Gemma 3 12Bの強みとして特に注目したいのが「情報分離能力」です。 「Aの観点ではこう、Bの観点ではこう」という複数軸での回答指示に対し、上位クラウドモデルと同等の精度で境界を守った回答を生成できます。

一方、4Bモデルでは複数条件が重なると条件を無視したり指示を混同する「指示忘れ」の傾向が見られました。

応答時間と実務の限界線

日本語ビジネスQ&Aで計測した応答時間を見ると、4Bモデルの約3秒という応答は人間がストレスなく会話を続けられる閾値を満たしています。 Phi-4 14Bの約104秒は、チャット形式での利用が事実上困難であることを示します。

ここから導き出されるのが「二層構造運用」という考え方です。

役割モデルクラス担当タスク
フロントエンド4Bチャット・初期検索・メール下書きなど即時対応が必要な業務
バックエンド12〜14B長文分析・コード一括生成・夜間バッチ処理など非同期タスク

推論を最適化する3つの技術

量子化の「黄金律」はQ4_K_M

量子化はメモリと精度のトレードオフです。 2026年現在の広範なベンチマーク結果から、Q4_K_M(4ビット量子化)が「精度低下3%以下でメモリを75%削減できる」ビジネス利用の標準解として再確認されています。

2ビット以下では論理的推論能力の「崩壊」が顕著になるため、IQ2_XXSやQ3_K_Lのような極端な量子化は実験的な用途に限定すべきです。

Flash AttentionとKVキャッシュ量子化

長文を扱う業務において、KVキャッシュの効率化は速度と安定性に直結します。

OLLAMA_FLASH_ATTENTION=1を設定することで、アテンション計算のメモリ効率が大幅に改善し、VRAM不足によるクラッシュを防ぎやすくなります。

KVキャッシュ自体をINT8やFP8で量子化する手法も一般化しており、同じVRAM容量で2〜4倍のコンテキスト長を処理できるようになっています。

各最適化手法のリスクと効果を整理しておきます。

最適化手法効果リスク
Flash Attention速度向上・VRAM消費削減ほぼなし(対応ハードウェアでは必須)
Q4_K_M量子化メモリ75%削減・速度向上わずかな推論精度の低下
KVキャッシュ量子化コンテキスト長を2〜4倍に拡張細部の記憶精度が低下
スペキュラティブ・デコーディング生成速度2〜3倍に加速ドラフトモデル用に追加VRAMが必要

企業導入のROIとデータ主権

クラウドAPIとの損益分岐点

ローカルLLMの導入は技術的な趣味ではなく、経済合理性のある選択です。

1日あたりのリクエスト数が15,000回(13Bクラスのモデル利用)を超えると、自社でPCや専用サーバーを運用するコストがAPI利用料を下回るというデータがあります。 GPT-4o-miniのような安価なモデルでも、1日30万回以上の大規模自動化ワークフローではローカルSLMのROIが圧倒的に高くなります。

機密データとコンプライアンス

クラウドへの機密情報流出は企業にとって最大のリスクのひとつです。 法務・財務・人事・開発中のソースコードといったデータを扱う際、「データがデバイスを離れない」というローカル推論の特性は、コンプライアンス上の強力な武器になります。

2026年現在、欧州GDPRや各国データ主権法の厳格化を受け、多くのグローバル企業が「機密業務はローカルAI、公開情報の処理はクラウドAI」というハイブリッドAI戦略を標準採用しています。


まとめ:ローカルAIを今すぐ始めるための指針

2026年のビジネスノートPC環境におけるローカルLLMの現状を整理すると、こうなります。

4GB VRAMという標準的な環境における実用的な主役はGemma 3 4Bです。 速度・マルチモーダル対応・日本語の自然さの三拍子が揃っており、日常的なオフィス業務をリアルタイムで支援できます。

複雑な文書処理や論理的な正確さが求められるタスクでは、Phi-4 14BとGemma 3 12Bに明確な優位性があります。 ただし、32GB以上のシステムRAMとQ4_K_M量子化の活用が前提条件です。

Llama 4 Scoutが示した1000万トークンのコンテキストウィンドウは、ローカルAIの次なるフロンティアです。 現時点ではノートPCでの本格運用には早すぎますが、メモリコストの低下と量子化アルゴリズムの進化により、2020年代後半には手が届く技術になるでしょう。

今すぐできることとして、まずはOllamaをインストールしてGemma 3 4Bを動かしてみることをおすすめします。 自社のデータがデバイスを離れないまま、AIによる業務支援が始まります。

最後までご覧いただき、ありがとうございます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
返信通知を受け取る
通知
guest
0 コメント
最新のコメント
一番古いコメント 投票の多いコメント
Inline Feedbacks
すべてのコメントを表示
目次