自分のPCでAIアシスタントを動かし、Discordから呼び出せたら——そう思ったことはありませんか。
ChatGPTやClaudeのようなクラウドAIは便利ですが、使えば使うほどAPIコストが積み上がりますし、プライベートなデータを外部サーバーに送ることへの懸念も拭えないですよね。
そこで注目されているのが、OpenClaw(旧Clawdbot)+Ollamaという組み合わせです。 自分のGPUでLLMを動かし、DiscordをUIとして使うことで、コストほぼゼロ・完全プライベートなAIアシスタント環境が構築できます。
この記事では、アーキテクチャの全体像から具体的なセットアップ手順、よくあるエラーの対処法まで、2026年時点の最新情報をもとに網羅的にまとめました。
ぜひ最後までご覧ください。
ローカルAIアシスタントの全体像
なぜ今「ローカルAI」なのか
AIを取り巻く状況は大きく変わってきました。
クラウドAIへの依存が高まる一方で、以下のような課題が顕在化しています。
| 課題 | 内容 |
|---|---|
| コスト | トークン単位の課金が積み重なり、エージェント的なタスクでは月額コストが跳ね上がる |
| プライバシー | 入力データが外部サーバーに送信される |
| 制限 | プロバイダー側のポリシー変更で機能が突然制限される |
ローカルAIはこれらを一気に解決します。 一度GPUを購入すれば、以後の運用コストはほぼゼロ。 データはすべて手元に残ります。
OpenClawとは何か
OpenClawは、もともとClawdbot、その後Moltbotという名称で開発されてきたオープンソースのAIゲートウェイです。
| 名称 | 時期 | 主な特徴 |
|---|---|---|
| Clawdbot | 2025年初頭 | Claude API向けのDiscord/Telegramボット |
| Moltbot | 2026年1月27日 | OllamaサポートとWebブラウザツールの追加 |
| OpenClaw | 2026年1月30日 | フルオープンソース化、マルチチャネル対応 |
2026年3月現在、GitHubスターは147,000以上を獲得しており、活発に開発が続いています。
ローカルのOllamaインスタンスを中核に据えながら、リソースが足りない場合はClaudeなどのクラウドAPIをフォールバックとして使うハイブリッド構成も取れます。
必要なハードウェアと環境

VRAMがすべてを決める
ローカルLLMの実用性は、ほぼVRAMの量で決まります。
| コンポーネント | 最低要件 | 推奨 | 役割 |
|---|---|---|---|
| GPU (NVIDIA) | RTX 3060 (12GB) | RTX 4090 / Dual 3090 | モデルサイズと推論速度を左右する |
| システムRAM | 16GB | 64GB以上 | レイヤーのCPUオフロードに使用 |
| CPU | 6コア | 12コア以上 | プロンプト処理とバックグラウンドタスク |
| ストレージ | 50GB SSD | 500GB NVMe | モデルの重みと永続メモリの保存 |
たとえばRTX 4070 SUPERのような12GB VRAMのカードでは、20Bクラスのモデルを4bit量子化(MXFP4)で動かすのが現実的な上限です。 これが最もコストパフォーマンスの高い構成でもあります。
VRAMの消費量の考え方
VRAMの使用量は、以下のように計算できます。
VRAM使用量 ≈ モデルのVRAM + KVキャッシュのVRAMコンテキストウィンドウを大きくするほど、KVキャッシュが増えます。 32kトークンを設定すると、数GBの追加VRAMが必要になるケースもあるので注意が必要です。
WSL2がWindowsの鍵になる
Windows環境では、**WSL2(Windows Subsystem for Linux 2)**がOllamaとOpenClawを動かすための基盤になります。
従来の仮想化と違い、WSL2はホストOSとリソースを動的に共有する設計のため、NVIDIAのCUDAコアにネイティブに近いパフォーマンスでアクセスできます。 展開を安定させるには、WSL2の設定内でsystemdを有効化し、OpenClawのゲートウェイをバックグラウンドデーモンとして管理する必要があります。
Ollamaの導入とモデルの選び方

インストールの流れ
OllamaのインストールはWSL2のターミナルで以下を実行するだけです。
curl -fsSL https://ollama.com/install.sh | shインストール後は、まずnvidia-smiでGPUがLinux側から正しく認識されているか確認しましょう。 ここでGPUが見えていないと、推論はすべてCPUで行われることになり、実用的な速度は出ません。
モデルの選択基準
用途に合わせてモデルを選ぶのが大切です。
| モデル | 得意なこと | 必要VRAM(目安) |
|---|---|---|
| gpt-oss:20b | エージェント的タスク、ツール呼び出し | 12GB(MXFP4量子化時) |
| qwen3-coder | コード生成、論理タスク | 12GB〜 |
| gemma3:12b | 日本語対応、バランス型 | 8GB〜 |
2026年時点でOpenClawとの相性が特に良いとされるのがgpt-oss:20bです。 関数呼び出しと思考の連鎖(Chain-of-Thought)をネイティブでサポートしており、MXFP4量子化によって210億パラメータのモデルを16GB以内のVRAMで動かせます。
コンテキストウィンドウを手動で拡張する
デフォルトでは、多くのOllamaモデルは2,048〜4,096トークンの制限で起動します。 OpenClawの複雑なシステムプロンプトやメモリの注入には、これでは足りません。
以下の方法でカスタムモデルを作成することで、コンテキストを拡張できます。
ollama run gpt-oss:20b
>>> /set parameter num_ctx 32768
>>> /save gpt-oss-20b-32k基本的なタスクには32,768トークン、複雑なコーディングやドキュメント分析には128,000トークンが推奨されています。
OpenClawのセットアップ

インストールとオンボーディング
Node.js 22以上が必要です。 古いバージョン(18や20)では即座にクラッシュするので、まずnvmでバージョンを切り替えておくのがおすすめです。
npm install -g openclaw
openclaw onboardopenclaw onboardのウィザードが、AIプロバイダーの設定、Discordなどのメッセージングチャネルの連携、デーモン登録を順番に案内してくれます。
デーモンとして常時起動させる意味
オンボーディングの「Daemon Installation」ステップは特に重要です。
これを完了すると、PCを再起動してもAIアシスタントがバックグラウンドで待機し続けます。 ターミナルを開くことなく、Discordからいつでも呼び出せる状態になる——これがAIを「ツール」から「パートナー」に変える鍵です。
推論レベルの設定
gpt-oss:20bは「Low / Medium / High」の3段階で推論の深さを調整できます。
ツール呼び出しの正確さを重視するなら、OpenClawの設定のextraBodyに以下を追加することをおすすめします。
"think": "high"これを設定しないと、モデルがツール用のJSON構造を正確に生成できず、エージェント機能が崩壊することがあります。
DiscordをAIのコマンドセンターにする

ボット作成と必須の設定
Discord Developer Portalでアプリケーションを作成したあと、以下の権限・インテントの設定が必要です。
| 設定項目 | 必要度 | 理由 |
|---|---|---|
| Message Content Intent | 必須 | ユーザーのメッセージを読み取るために不可欠 |
| Server Members Intent | 推奨 | ユーザーIDの検証に使用 |
| メッセージ送信 | 必須 | ボットがチャネルに返答するために必要 |
| メッセージ履歴の読み取り | 必須 | 会話の文脈を理解するために必要 |
| リンクの埋め込み・ファイル添付 | 推奨 | Web検索結果や画像を返すツールに必要 |
Message Content Intentを有効にし忘れるのが、最もよくあるミスです。 この設定がないと、ボットはオンラインになるものの、メッセージには一切反応しません(エラー4014)。
ペアリング承認でセキュリティを確保する
OpenClawはデフォルトでペアリング制を採用しています。
新しいユーザーがボットにメッセージを送ると、ゲートウェイが一意のコードを生成します。 管理者が以下のコマンドで承認するまで、そのユーザーのコマンドは実行されません。
openclaw pairing approve discordボットを公開サーバーに追加した場合でも、検証済みのユーザーだけがホストマシンを操作できる設計です。
セキュリティ設計:AIに「鍵」をかける
OpenClawのゲートウェイを公開しない
OpenClawはデフォルトでポート18789をリスンします。 このポートを直接インターネットに公開するのは危険です。
おすすめの解決策はTailscaleの導入です。 WireGuardベースのプライベートメッシュVPNで、ゲートウェイを100.x.x.xのプライベートアドレス経由でのみアクセス可能にできます。 スマートフォンからDiscordではなくコントロールUIに直接アクセスしたい場合も、Tailscaleを使えばセキュリティを損なわずに実現できます。
コマンドの許可リストで「爆発半径」を最小化する
openclaw.json内で、エージェントが実行できるコマンドを制限できます。
{
"allowedCommands": ["git", "curl", "npm"],
"blockedCommands": ["rm -rf", "sudo"]
}さらに、エージェントをサンドボックスコンテナ内で動かすことで、AIがシステムの重要ファイルを変更できないよう保護できます。
よくあるエラーと対処法
構築中に詰まりやすいポイントをまとめました。
| エラー / 症状 | 原因 | 解決策 |
|---|---|---|
| Fatal Gateway Error 4014 | Message Content Intentが未設定 | Developer PortalでIntentを有効化 |
| 無限ロード・タイムアウト | IPv6/IPv4の不一致 | 設定内のlocalhostを127.0.0.1に変更 |
| “Agent failed before reply” | コンテキストウィンドウの超過 | num_ctxとcontextWindowの値を増やす |
| 生のJSONがそのまま出力される | OpenAI互換パスの使用 | OllamaのbaseURLから/v1を削除する |
特に「生のJSONがそのまま出力される」問題は見落としがちです。 OllamaのネイティブAPIと、OpenAI互換エンドポイント(/v1付き)は別物です。 OpenClawはネイティブプロトコルを前提としているため、http://127.0.0.1:11434のようにパスなしで設定するのが正解です。
積極的なアウトリーチ:AIから話しかけてくる
OpenClawの特徴的な機能として、AIが自発的にDiscordでメッセージを送ってくる仕組みがあります。
CRONスケジュールやトリガーを設定することで、たとえば以下のような自動通知が実現できます。
| ユースケース | 内容 |
|---|---|
| モーニングブリーフィング | 未読メールや今日のカレンダー予定の要約 |
| フライト監視 | チェックインウィンドウが開いたら自動通知・自動チェックイン |
| 気象アラート | 天候が急変したらリアルタイムで通知 |
これはOpenClawに統合されたChromiumインスタンスが、ブラウザを自律的に操作することで実現しています。 フォームへの入力やWebサイトのナビゲートまで、エージェントが代わりにこなしてくれます。
まとめ
OpenClaw+Ollama+Discordの組み合わせは、単なるセルフホスト型チャットボットではありません。 自分のデータを守りながら、コストゼロでエージェント的なタスクをこなせる、真にパーソナルなAI基盤です。
構築時に押さえておきたいポイントを再確認しましょう。
| チェックポイント | 要点 |
|---|---|
| ハードウェア | 12GB VRAM以上のGPUを用意し、VRAMの消費量を把握しておく |
| モデル設定 | num_ctxを32k〜128kに拡張し、推論レベルをhighにする |
| Ollama接続 | baseURLは/v1なしのネイティブパスを使う |
| Discord設定 | Message Content Intentを必ず有効化する |
| セキュリティ | Tailscaleで外部公開を防ぎ、ペアリング承認を使う |
2026年現在、量子化技術の進歩によって、コンシューマーグレードのGPUでも十分に実用的なモデルが動くようになってきました。 クラウドAIへの依存を減らしながら、自分だけのAIアシスタントを持つ——その第一歩として、ぜひこの構成に挑戦してみてください。
最後までご覧いただき、ありがとうございます。
