ローカルで動くAIが、いよいよ「実用品」になってきましたね。
クラウドへの問い合わせが当たり前だった時代から、自分のPCの中だけで完結する推論へ——この変化は思っているより静かに、でも確実に進んでいます。 特に2026年現在、ビジネスノートPC一台でGPT-4クラスに迫る処理ができるという現実は、コスト・セキュリティ・応答速度のすべてに関わってきます。
「でも実際、自分のPCで動かせるモデルってどれ? 速度は? 日本語はちゃんと使える?」
そういった疑問を持つ方に向けて、Ollama v0.18.2を使い、Gemma 3・Phi-4・Llama 4という現代を代表する3つのモデルファミリーを、標準的なビジネスノートPC環境(Core i7 / 32GB RAM / NVIDIA Quadro T2000 4GB VRAM)で徹底検証しました。 速度、日本語品質、業務への適性、そして企業導入の経済合理性まで、まとめてお届けします。
ぜひ最後までご覧ください。
Ollama v0.18.2 ── 「推論エンジン」から「プラットフォーム」へ

v0.18.xで何が変わったか
Ollamaは2023年の登場以来、ローカルLLM実行のデファクトスタンダードとして定着してきました。 v0.18.2では、その役割がひとまわり大きくなっています。
単にモデルを動かすツールではなく、外部エージェントや業務ツールとつなぐ「プラットフォームハブ」としての機能が前面に出てきたのが、このバージョンの最大の変化です。
新たに加わったollama launchコマンドにより、Claude CodeやOpenClawといった外部エージェントとの連携がワンコマンドで完結するようになりました。 これまで複雑な設定が必要だった「バックグラウンドで自律的に動くAIワークフロー」が、標準機能として普通に使えます。
主要機能をまとめると、以下のとおりです。
| 機能 | できること |
|---|---|
ollama launch | OpenClaw等の外部エージェントとの即時連携・環境自動構築 |
| OpenClaw統合 | WhatsApp・Slack・Discord等のメッセージング基盤との接続 |
| ウェブ検索プラグイン | ローカルモデルにリアルタイム情報取得能力を追加 |
| Goベースのベンチマーク | TTFT・スループット・メモリ消費の精密計測 |
| ROCm 7 / 7.2サポート | 最新AMD Radeon/Instinctハードウェアでのネイティブ加速 |
OpenClaw:「回答」から「タスク遂行」へ
OpenClawは、ローカルLLMの付加価値を大きく変えるコンポーネントです。
たとえば、Slackで特定のメンションが来たことをトリガーに、ローカルのGemma 3がコードレビューを行い、その結果をGitHubへプルリクエストとして送信する——こういった一連の動作が、クラウドを一切介さずに完結します。
エージェントとして動かすには、最低64kトークンのコンテキストウィンドウを確保しておくことが推奨されています。 複数ステップの推論で過去の文脈を保持するために必要な要件ですね。
「4GB VRAMの壁」── ハードウェアがモデル選択を決める

GPUオフロードとCPUフォールバックの差
ローカル推論の体験を左右するのは、パラメータ数よりも物理的なVRAM容量です。
モデルの重みがVRAMに収まり切るかどうかで、速度は文字通り桁が変わります。 4GBのVRAMで動かした場合の実測値がこちらです。
| モデル | Q4量子化サイズ | 推論速度 | 使用感 |
|---|---|---|---|
| Gemma 3 4B | 約3.3 GB | 22〜25 tok/s | リアルタイムで即応答 |
| Gemma 3 12B | 約8.1 GB | 4〜6 tok/s | 待ち時間が発生 |
| Phi-4 14B | 約9.1 GB | 3〜3.4 tok/s | 非同期処理向け |
Gemma 3 4BはVRAMに完全に収まるため、全レイヤーをGPU上で処理できます。 一方、12B・14Bは容量を超えた分をシステムRAMとCPUで処理する「CPUフォールバック(スプリット)」が発生し、速度は4分の1以下に落ちます。
メモリ帯域幅という見落とされがちな要素
速度を制限するのは演算能力(TFLOPS)だけではありません。 メモリ帯域幅(GB/s)も同様に、トークン生成速度の上限を決めます。
Apple Silicon(M4 Max等)がローカルAIに強いとされる理由は、メモリバス帯域が400 GB/s以上あることにあります。 標準的なノートPCのDDR4/DDR5デュアルチャネルは50〜100 GB/s程度なので、大型モデルを動かしたときの差が如実に出ます。
モデル選択の実践的な指針
この「4GBの壁」が、実際の選択基準を明確にしてくれます。
| 用途 | 推奨モデルクラス | 理由 |
|---|---|---|
| リアルタイムチャット・文章補助 | 4Bクラス | 速度最優先 |
| 要約・コード生成・詳細分析 | 12〜14Bクラス | 精度優先、即時性は二の次 |
Google Gemma 3 ── 小さいのに長文も画像もこなせる理由

ハイブリッド・アテンションと128Kコンテキスト
Gemma 3は2025年3月にリリースされた、GoogleのGeminiシリーズの技術をオープンウェイトに蒸留したモデルファミリーです。
特筆すべきアーキテクチャ上の特徴は、128,000トークンという長大なコンテキストを効率的に処理する「ハイブリッド・アテンション」です。
全レイヤーで全トークンを参照する従来の設計とは異なり、Gemma 3は「5レイヤーのスライディングウィンドウ・アテンション(近傍のみ参照)+1レイヤーのグローバル・アテンション(全域参照)」を5:1パターンで交互に配置しています。
この設計により、KVキャッシュのメモリ消費量は従来のフルアテンションモデルと比べて最大85%削減されました。 32GBのRAMを持つ標準的なビジネスPCでも、長い業務文書や大きなコードベースを一度にコンテキストに含めた安定した推論が実現できます。
4Bと12Bの使い分け
2つのモデルの特性を整理しておきましょう。
| 特性 | Gemma 3 4B | Gemma 3 12B |
|---|---|---|
| 推奨環境 | 4GB+ VRAM搭載ノートPC | 8GB+ VRAMまたは32GB+ RAM |
| Q4量子化サイズ | 約3.3 GB | 約8.1 GB |
| 強み | 速度・画像認識・日常業務 | 論理推論・要約・翻訳 |
| 日本語品質 | 自然で十分実用的 | 高度かつ詳細 |
4Bはテキストだけでなく画像入力にも対応しています。 スキャンした文書やプレゼン資料からの情報抽出などで活躍します。
4Bの弱点は、複雑な指示でのハルシネーション(もっともらしい嘘)が上位モデルより発生しやすい点です。 正確性が求められるタスクでは、12Bを使うか、後述するRAG技術で外部知識を注入することが必要になります。
Microsoft Phi-4 ── 「量より質」の学習が生んだ論理エンジン

o3-miniからの蒸留と合成データ
Phi-4はMicrosoft Researchが開発した14Bモデルで、「データの質」を最優先した設計思想を体現しています。
学習データには、OpenAIのo3-miniなどトップティアモデルが生成した高品質な推論プロセス(Chain-of-Thought)を含む合成データが用いられています。 このため、モデルは単に次のトークンを予測するだけでなく、問題を解くための「論理的思考ステップ」を内面化しています。
技術レポートによれば、Phi-4はAIME 2025(アメリカ数学オリンピック予選レベル)において、14Bというサイズで671Bの巨大モデルDeepSeek-R1に匹敵する精度を達成しています。
Phi-4が輝く業務シーン
エクセル数式の自動生成、SQLクエリの構築、複雑なロジックを伴うデータ分析——こうした構造化された知能が求められる業務では、現行ローカルモデルの中でトップクラスの実力を発揮します。
日本語での課題と現実的な対策
Phi-4の弱点は英語偏重の学習データによる日本語品質のばらつきです。 Gemma 3が140以上の言語で高い一貫性を示すのに対し、Phi-4は日本語での語彙が不自然になる場面が見受けられます。
ただし2026年現在、コミュニティによる日本語特化型ファインチューニングモデルやLoRAアダプターが多数提供されており、これらを組み合わせることで補完が可能です。
ビジネス実務での現実解としては、英語で書かれた技術文書をPhi-4の論理エンジンで解析し、翻訳レイヤーを通して日本語出力するパイプラインが効果的です。
Meta Llama 4 Scout ── 109Bで動く、でもノートPCには早すぎる?

MoEアーキテクチャの仕組みと恩恵
2025年4月に発表されたLlama 4 Scout(109B)は、ローカルAIの常識を揺るがすモデルです。 採用しているのは「Mixture-of-Experts(MoE)」アーキテクチャ。
総パラメータは109Bですが、各トークン処理時にアクティブになるのは17B分だけです。 計算コストを17Bモデル相当に抑えながら、100Bクラスの広大な知識ベースと推論能力を使える設計になっています。
ハイエンドデータセンター向けGPU(H100等)では140 tok/sを超えるスループットが出ます。
ノートPCにおける「メモリの壁」
しかし、MoEの問題点があります。 推論時の計算量は少なくても、重みの選択を瞬時に行うために、109B全パラメータをRAM上に乗せておく必要があるのです。
量子化形式別に必要なメモリをまとめると、こうなります。
| 量子化形式 | 必要メモリ | 32GB PCでの実行 |
|---|---|---|
| FP16(標準) | 約218 GB | 不可 |
| Q8_0(高画質) | 約114 GB | 不可 |
| Q4_K_M(標準) | 約60 GB | 不可(64GB搭載機なら可) |
| 1.78-bit(超高圧縮) | 約34 GB | メモリを空けて辛うじて起動 |
32GBのPCでScoutを動かすには1.5〜1.78ビットという極限の量子化が必要で、この水準では本来の109Bとしての実力は発揮できません。 現時点では128GB以上のメモリを積んだデスクトップ機やApple M4 Ultra搭載機向けのツールと考えるのが現実的です。
1000万トークンのコンテキストが意味すること
Scoutが持つもう一つの革新が、1,000万トークンという桁外れのコンテキストウィンドウです。
数千ページの法務文書や数十万行のレガシーコードベースを、一つのプロンプトに丸ごと入れられます。 従来のRAG技術が抱えていた「どの部分を検索してくるか」という検索精度の問題を、文書全体を俯瞰することで原理的に解決してしまう発想ですね。
日本語ビジネス業務での品質比較
タスク別の実力差
日本語Q&A・コード生成・要約・創作の4タスクで検証した結果をまとめます。
| タスク | Gemma 3 4B | Gemma 3 12B | Phi-4 14B |
|---|---|---|---|
| 日本語Q&A | 短文なら正確、長文は曖昧 | 詳細で文脈把握が強い | 論理的だが日本語が硬い |
| コード生成 | 基本構文は可 | 複雑なクラス設計に対応 | 最も正確でエラーが少ない |
| 文書要約 | 箇条書きが限界 | ニュアンスを保ちながら圧縮 | 構造化された分析的要約 |
| 創作・アイデア | 語彙がやや単調 | 多彩でクリエイティブ | 論理的すぎて面白みに欠ける |
Gemma 3 12Bの強みとして特に注目したいのが「情報分離能力」です。 「Aの観点ではこう、Bの観点ではこう」という複数軸での回答指示に対し、上位クラウドモデルと同等の精度で境界を守った回答を生成できます。
一方、4Bモデルでは複数条件が重なると条件を無視したり指示を混同する「指示忘れ」の傾向が見られました。
応答時間と実務の限界線
日本語ビジネスQ&Aで計測した応答時間を見ると、4Bモデルの約3秒という応答は人間がストレスなく会話を続けられる閾値を満たしています。 Phi-4 14Bの約104秒は、チャット形式での利用が事実上困難であることを示します。
ここから導き出されるのが「二層構造運用」という考え方です。
| 役割 | モデルクラス | 担当タスク |
|---|---|---|
| フロントエンド | 4B | チャット・初期検索・メール下書きなど即時対応が必要な業務 |
| バックエンド | 12〜14B | 長文分析・コード一括生成・夜間バッチ処理など非同期タスク |
推論を最適化する3つの技術
量子化の「黄金律」はQ4_K_M
量子化はメモリと精度のトレードオフです。 2026年現在の広範なベンチマーク結果から、Q4_K_M(4ビット量子化)が「精度低下3%以下でメモリを75%削減できる」ビジネス利用の標準解として再確認されています。
2ビット以下では論理的推論能力の「崩壊」が顕著になるため、IQ2_XXSやQ3_K_Lのような極端な量子化は実験的な用途に限定すべきです。
Flash AttentionとKVキャッシュ量子化
長文を扱う業務において、KVキャッシュの効率化は速度と安定性に直結します。
OLLAMA_FLASH_ATTENTION=1を設定することで、アテンション計算のメモリ効率が大幅に改善し、VRAM不足によるクラッシュを防ぎやすくなります。
KVキャッシュ自体をINT8やFP8で量子化する手法も一般化しており、同じVRAM容量で2〜4倍のコンテキスト長を処理できるようになっています。
各最適化手法のリスクと効果を整理しておきます。
| 最適化手法 | 効果 | リスク |
|---|---|---|
| Flash Attention | 速度向上・VRAM消費削減 | ほぼなし(対応ハードウェアでは必須) |
| Q4_K_M量子化 | メモリ75%削減・速度向上 | わずかな推論精度の低下 |
| KVキャッシュ量子化 | コンテキスト長を2〜4倍に拡張 | 細部の記憶精度が低下 |
| スペキュラティブ・デコーディング | 生成速度2〜3倍に加速 | ドラフトモデル用に追加VRAMが必要 |
企業導入のROIとデータ主権
クラウドAPIとの損益分岐点
ローカルLLMの導入は技術的な趣味ではなく、経済合理性のある選択です。
1日あたりのリクエスト数が15,000回(13Bクラスのモデル利用)を超えると、自社でPCや専用サーバーを運用するコストがAPI利用料を下回るというデータがあります。 GPT-4o-miniのような安価なモデルでも、1日30万回以上の大規模自動化ワークフローではローカルSLMのROIが圧倒的に高くなります。
機密データとコンプライアンス
クラウドへの機密情報流出は企業にとって最大のリスクのひとつです。 法務・財務・人事・開発中のソースコードといったデータを扱う際、「データがデバイスを離れない」というローカル推論の特性は、コンプライアンス上の強力な武器になります。
2026年現在、欧州GDPRや各国データ主権法の厳格化を受け、多くのグローバル企業が「機密業務はローカルAI、公開情報の処理はクラウドAI」というハイブリッドAI戦略を標準採用しています。
まとめ:ローカルAIを今すぐ始めるための指針
2026年のビジネスノートPC環境におけるローカルLLMの現状を整理すると、こうなります。
4GB VRAMという標準的な環境における実用的な主役はGemma 3 4Bです。 速度・マルチモーダル対応・日本語の自然さの三拍子が揃っており、日常的なオフィス業務をリアルタイムで支援できます。
複雑な文書処理や論理的な正確さが求められるタスクでは、Phi-4 14BとGemma 3 12Bに明確な優位性があります。 ただし、32GB以上のシステムRAMとQ4_K_M量子化の活用が前提条件です。
Llama 4 Scoutが示した1000万トークンのコンテキストウィンドウは、ローカルAIの次なるフロンティアです。 現時点ではノートPCでの本格運用には早すぎますが、メモリコストの低下と量子化アルゴリズムの進化により、2020年代後半には手が届く技術になるでしょう。
今すぐできることとして、まずはOllamaをインストールしてGemma 3 4Bを動かしてみることをおすすめします。 自社のデータがデバイスを離れないまま、AIによる業務支援が始まります。
最後までご覧いただき、ありがとうございます。
