gpt-oss-120bを自宅で動かした話 - 普通のPC+RTX3080tiでもイケた!

    

ローカルLLMを使いたくなる 

遅ればせながら2025年9月のある日、OPEN AIからgpt-oss-120bがリリースされたことを知りまして、自宅でLLMを動かしてみようと思い立ちました。

ひとまず自宅のデスクトップPCでgpt-oss-20bを動かしてみました。PCにはRTX3080Tiが搭載されていて12GBのメモリを積んでいます。OllamaをGUIで操作し実に簡単に利用できました。微妙にVRAMがあふれたりもしますがAIと快適に問答ができました。

で、実際に何か本当に役立てようと思ったらできるだけ賢いLLMモデルを使いたいよねということでgpt-oss-120bの稼働に取り組みます。

モデルのダウンロードサイズが約64GB(当時)で、メモリに展開する際には更に増えるかもしれません。

ネットではRyzen AI Max+ 395CPUを積んだミニPCで128GBのメインメモリからGPU用に96GBを割り当てて稼働するといったWeb記事やYoutube動画を沢山見ました。30~40tok/sec出ているご様子です。128GBのメモリを積んだM4 Mac を用いるとさらに性能が出ているようですが、80万円くらいするらしい...

ミニPCの購入にも心惹かれましたが、その頃はGMKtecのEVO-X2の128GB版が売り切れだったり、まだMinisforum MS-S1 MAXのリリース前情報も知らず、購入には至りませんでした。


自宅PCを強化してみよう

通常のPCにdGPUを積んでいる状態であってもメインメモリの50%までは「共有GPUメモリ」に割り当てられるので、「(使い物になるかどうかは別として)メモリを山のように積んでおけば動くのでは?」というやんちゃなノリで、ひとまずデスクトップPCの強化を行いました。

  • マザーボード: ASRock Z890M Riptide Wifi
  • CPU: Intel Core Ultra 265K
  • メモリ: Crucial CT2K64G56C46U5 64GB x4枚 (合計 256GB!!)

を投入しました。

  • RTX3080Ti

も引き続き利用します。

メモリを256GB積んだ後、電源ONからBIOS画面が表示されるまでに2分程度かかるようになり、初めは「ダメか」と焦りましたがBIOSでQuick Startを有効にしたら数秒でBIOSが表示されるようになりました。


動きました

結論からいいますと、上記構成のPCで無事にgpt-oss-120bは動きまして、平均14 tok/sec程度の速度が出ています。

早いとは言えませんが十分実用になりそうです。


LM Studioの設定

LM Studioの設定を以下に紹介します

Keep Model in Memory: オン
Force Model Expert Weights onto CPU: オン

  • これでdGPUのメモリ使用量が大きく減りました
Flash Attention: オン

  • オンにしたらちょっと速くなることもあるかも?
Context Length: 4096から初めて現在は約10000に設定しています

  • この数値を大きくするとdGPUのメモリ使用量が増え、また "Thinking..."の時間がぐっと増えます。書き出し速度にも影響ありそうです。
  • GPU Offloadは最大(36/36)に設定しました
  • CPU Thread Pool Sizeも最大の10です
    Intel 265Kが20コアなのでもっと増やしたいくらいです...


dGPUメモリ利用状況

  • LM StudioでLLMモデルをloadした時からGPUメモリの使用量が上がります。が、"Force Mogel Expert Weights onto CPU"をオンにするとGPU占有メモリの使用量は実容量の12GB以下になり、GPU共有メモリのほうにあふれ出すこともありませんでした
  • Thinking...の間は「3D」処理のグラフが2~3割だけ上昇
    計算処理的に「3D」でくくられてしまっているプロセッサの一部機能しか使えないため、2~3割で頭うちしているように見えるだけで、GPU以外にボトルネックがあるのではないのかな、と理解していますが、あるいはメモリやCPUとの通信遅延、帯域とか他にボトルネックがある可能性も否めないですね

  • 書き出しが始まると「3D」処理のグラフが上限まで上がります

CPUも書き出しが始まってから大きく利用率が上がりますね...







メインメモリはLLMモデルをロードした時に一気に確保されています










gpt-oss-20bと120bの違い

今年の夏、うちでは「パールゴーヤ」という白いゴーヤを育てていました。

「パールゴーヤという白いゴーヤはありますか?」という質問をしたところ

gpt-oss-20bは

「パールゴーヤは熱帯魚の一種であって、断じてウリ科の植物ではない。なぜそのような誤解が生じるか詳しく解説する」とのたまわれ、コテンパンに否定されてしまいました。

gpt-oss-120bは

ゴーヤの一種であるパールゴーヤの事も知っていて、おすすめレシピも教えてくれました。

パールゴーヤに関してはたまたま知っていたかいなかったか、の違いにすぎないかもしれませんが、汎用のAIとして利用するのはやはりできるだけ大きなモデルを選ぶのが安全・便利なのかと感じました。AI関連の専門家が 100Billionを超えると単に量が増大するだけでなくAIとしての質も変わる、というようなことをネットでおっしゃられていたので、できる限りgpt-oss-120bの方を使っていこうと思います。

特定用途、特定利用形態ではSLMも注目を集め始めているようで、なかなか一筋縄ではいきませんが...


今後の利活用に期待
調べ物をするのはオンラインのCopilotを利用しています。より新しい情報も反映されているかと思いますので。
では自宅LLMは何に使うのか?
「動かすこと自体が目的だろ、ロマンだろ!」でも十分ではあるのですが、せっかくなので活躍していただきたい...
自宅LAN上のVSCodeからgpt-oss-120bに接続できるようにしたので、プログラミングには大いに役立ちそうです。クラウドサービスと違って都度課金されないので、遠慮なく使えますしね。(CPU、メモリ、マザボ、etcで15万円ほど先払いしましたが...)
他にもローカルLLMならではの便利な/お得な用途を見つけていきたいですね...



コメント

このブログの人気の投稿

今日の詐欺メールさん - 2025.10.14