先月、自分のPC上でローカルLLM(AIエンジン)を動かす実験をした記事を投稿しました
(関連記事)
しかし結果は散々で、自分の書いたコードからそのローカルで動いているLLMを呼び出して結果を受け取ると、軽く3分以上待たされてしまい、完全に非実用的でした![]()
敗因は、そのマシンに搭載さえていたGPUがしょぼかったことでした![]()
LLMの処理を行うには大量の四則演算を超高速に行う必要があるため、GPUにそれをやらせることでCPUよりもはるかに高速に実行できるわけですが、
そもそも私の現在のメインマシンのGPUは、CPUに内蔵されているレベルのものだったため、話にさえならなかった。。ということでした。
そこで次に試してみたかったのが、4年くらい前に購入した、(当時としては)高性能GPUを搭載した大型ノートPCでAIを動かしてみる、ということです![]()
(購入時の記事)

実はそのマシン、今のようなAIブームが起こる前のもので、CPUにはNPUコア(AI計算を行う専用のコア)が入っていないものですが、それ以外に関しては超高速高性能な、インテル モバイル Core i7 の最終世代(第13世代)を採用しています。
(Intel Core i7 13700H )
メモリも32GB、GPUには NVIDIAのGeForce 4060 8GB VRAM搭載という、当時は最高性能クラスのゲーミングノートPCと言えるマシンでした。
とにかく、独立したGPUを搭載していますから、ローカルでAIを動かすという意味では今使っているマシンより速いのではないか?と思ったのです。
そこで、すでに数か月前に中も外もきれいにして 新品のように箱にしまい込んで、そのうち誰かにあげよう、と思っていたのそのマシンでしたが、
自分でこれを開封
、急遽Windows 11をセットアップして、LM Studio (AIエンジンをコントロールするツール)をダウンロードして、Pythonをインストールして、前に使ったサンプルコードを動かしてみました![]()
すると。。

は?エラー??![]()
マシンスペックが要件を満たしていないですと??
「このAIモデルには約21.73GBのメモリが必要だけれど、このマシンはそれを満たしていないからダメ」
いやしかし。
以前、今使っている方のPCで同じことをやったときは、回答が返ってくるまでに3分以上かかったものの、上記のようなエラーはありませんでした。
これはなぜ起きるのかを調べてみたところ、
メモリの使い方の違い(ロード方式の違い)によるものだということでした![]()
| 要素 | 前のマシン(独立型GPU搭載) | 今のマシン(GPUはCPUに内蔵) |
|---|---|---|
| ロード方式 | AIモデルはRAMにのみ展開される。VRAMは推論時に補助的に使われる。 | AIモデルは共有メモリ領域に展開される。 推論時の一時的なデータも同じ共有メモリ領域に入れられる。 ※今のインテルCPUはRAMとVRAMを共有するデザインのため、AIモデルの展開場所と推論用の場所を分ける必要はない |
| NPU(AI専用コア) | なし。 | あり。一部AI演算をNPUに分配可。 |
以下が、今使っているCPUが、AIモデル(Qwan 3.5 35B)をロードした時の動作を図示したものですが、

要するに、CPU・GPU・NPU が 1 つの巨大なメモリプールを共有しているため、旧マシンのようなメモリ不足エラーにはならない、ということですね![]()
やっぱり、いくらGPU性能が高いマシンであっても、CPUは今の世代のものを使う必要がありそうです。
ただ、現在のトレンドは、自分のPCの中だけでLLMを動かす ということよりも、
AI Agent を活用する、という方向に流れていると思います。
Agent (代理人)と、今まで広く使われてきたAIとの違いを一言でいうと、「AIに作業をさせる」ことができるということだと思います。(今までは「質問する」という感じだったかと思います)
そして、Agentモードを使っての非常に有益な使い方は、「自分専用のアプリを作ってもらう」ことかと思います。
これだと、アプリを作る際に個人情報をさらすことはないですし、アプリが出来上がったらそれをオフラインで使えばセキュリティも担保できるかと思います![]()
・・その方法であれば、なにも自分のPCが超高性能でなくても やりたかったことができそうです。
