グラフィックボードを新調し、VRAMが12GBに増えたので、ローカルのLLMも少しだけ性能を上げられるようになり、いろいろ調べてみたところ、Lumimaid-Magnum-v4-12BというMistral AI のNemoの派生モデルが今の環境でちょうどよく性能もそれなりらしいことを知ったので試してみた。
EasyNovelAssitantで試そうと思ったが、検閲のないモデルをいろいろ調べている途中でSillyTavernの存在を知った……というか前から知ってはいたのだけど、ちゃんと調べたことはなかったので、この機会にと思って本格的に導入してみよう、となった。
SillyTavernはロールプレイ向きのAI Chatフロントエンドで、平たく言うとAIとなりきりチャットができるくらいの理解でよいと思う。あくまでフロントエンドなのでバックエンドが必要なんだけど、ここは例えばChatGPTとかClaudeに課金してるならそのAPIキーを使えるし、自前でLLMのサーバを立ててそれをバックエンドにすることもできる。今回はローカルLLMを試したかったのと、今後いろいろ試すなら電気代だけで動かせるローカルLLMの環境のほうが適しているということで、KoboldCPPを導入した。KoboldCPPはEasyNovelAssitantでもバックエンドに採用されているので、単体で使えるようになっておくのもいいかなという気持ちもあった。
Lumimaid-Magnumは最初触ってみた感じではExample Dialogを引きずりすぎたり、直前のメッセージを引きずりすぎたり、繰り返しが多かったりという気がしたが、ここはプロンプトを調整したり指示をしたりすると改善できて、それなりにちゃんとロールプレイさせられる、かも?という手応えがある。 KoboldCPP単体で使ってみた感じではかなり良好で、短めの小説を書かせてみるとかなり指示を汲み取って書いてくれるようになった感じがする。複雑な構造を取り扱うのは苦手なので、一本道でシーケンシャルに進行する、描写する内容がある程度テンプレートに沿っている、などの条件下ではそれなりに使えるかもしれない。ただ、これがモデルがよくなったからなのか、単にパラメータ数が増えたからなのか、どっちなのかはちょっとわからない。でもMistral AIのモデルはローカルLLM界隈ではわりと良好だという評判なので、実際出来がいいモデルである可能性はある。
SillyTavernにはWorld Informationという機能があって、特定の条件に応じてプロンプトにキーワードを付与したりできるので、このへんを上手く組み合わせると、AIとの対話だけでは実現しづらい論理的な構造をもったストーリーテリングとかももしかしたらできるかもしれない。
こういう表現が適切かどうかちょっとわからないが、eramakerの口上部分だけを延々と味わえるごっこ遊び、と思った。なのでeramaker勢はSilly Tavern試してみてほしい。
RTX5060Tiの16GBモデルは手が届きやすい価格帯で(購入できれば、ではあるけど)、VRAM16GBあれば結構動かせるモデルが増える。さすがにGemma3-27BとかMistral-Small-3.1-24Bとかは2枚差し前提になりそうだけど、2枚差しでもVRAM 32GBのGPUよりは断然安いはず。そうなってくるとローカルLLMでも一世代前くらいの性能が使えるかもしれない。来年はもっといいモデルがローカルで使えるようになると思う。ハードウェアの性能向上と、モデルの性能向上の相乗効果でより一層手軽に生成AIが使えるようになっていくだろう。GPUの品薄状況も続くことになりそう。
こちらからは以上です。