text genration webui でCohere(C4AI)のCommand-R(35B)とPlus(104B)を何とか動かすことができたので、メモです。
具体的には下記複数の注意点が有り、しばらく動かせずハマっていた為、解説です。
①C4AIのCommand-R系のGGUFに対して、llama_cppに対するVer要求があり動かなかった。(0.2.57以上が必要。)
→既存最新のWebUI環境なら動く。
②最近のアップデートで、pytorchのVerUpが入った。
→トラブった場合、installフォルダを抹消して、再インストで対応可能です。
③また、C4AIのモデルはWebUIの設定変えないとロードが困難です。
・設定項目の解説と、パラメータ設定の補足を下記に記載。
→35BのCommandRはKVキャッシュ用に普通以上に大量のメモリが必要です。
→ゆえに、35Bはn-ctxを小さくしないとメモリに乗りません。
(Ropeは1万にしてますが、いくつにすべきか不明)
→104BのCommandR+はモデルがクッソデカイです。
→こちらは、普通のオフロードで何とかなります。
項目 | Command-R 35Bモデル | 104B モデル |
|||
---|---|---|---|---|---|
量子化,と レイヤ- |
Q=2bit , L=41(全部) |
iQ3-Jp 41(全) |
iQ4-Jp, 41(全部) |
Q2-xxs, 45/64 |
|
n-ctx | 131072 | 6000 | 4096 | 2048 | 4096 |
コメント | デフォ では エラー |
2bitで6k が限界 |
普段 使い |
4bで 2kトークン が限界 |
103の方は トークン数に 余裕 |
所要VRAM | ERROR | 20.6G (13+7.6) |
18G (13+5) |
21G (18+2.5) |
18G (17+1) |
所要 メモリ |
1.6G | 1.6G | 1.6G | 27G |
→一応、上記設定で、ギリギリ普通の高性能PCで動いてます。
(環境は vram24G,メインRam 40G,Ryzen)
⑤C4AIはInstraction-Chatのモデルかつ、なのでParameters設定が必要。
・Defaultの場合→Parameters→Command-Rを設定し、使うタブにSendする。
・Chatの場合は→上記でCommand-Rを設定後に、Instractだと思う。
⑥これにてWebUIで動きましたが、今のメイン環境はLmStudioに切替えてます。
WebUIも使ってますが、遊ぶ用はLmStudioが楽でいいと思います。
以上。