text genration webui でCohere(C4AI)のCommand-R(35B)Plus(104B)を何とか動かすことができたので、メモです。
具体的には下記複数の注意点が有り、しばらく動かせずハマっていた為、解説です。

①C4AIのCommand-R系のGGUFに対して、llama_cppに対するVer要求があり動かなかった。(0.2.57以上が必要。)
 →既存最新のWebUI環境なら動く。
②最近のアップデートで、pytorchのVerUpが入った。
 →トラブった場合、installフォルダを抹消して、再インストで対応可能です。
③また、C4AIのモデルはWebUIの設定変えないとロードが困難です。
 ・設定項目の解説と、パラメータ設定の補足を下記に記載。
→35BのCommandRはKVキャッシュ用に普通以上に大量のメモリが必要です。
 →ゆえに、35Bはn-ctxを小さくしないとメモリに乗りません。

 (Ropeは1万にしてますが、いくつにすべきか不明)
→104BのCommandR+はモデルがクッソデカイです。
 →こちらは、普通のオフロードで何とかなります。
 

項目 Command-R 35Bモデル 104B
モデル
量子化,と
レイヤ-
Q=2bit ,
L=41(全部)
iQ3-Jp
41(全)
iQ4-Jp,
41(全部)
Q2-xxs,
45/64
n-ctx 131072 6000 4096 2048 4096
コメント デフォ
では
エラー
2bitで6k
が限界
普段
使い
4bで
2kトークン
が限界
103の方は
トークン数に
余裕
所要VRAM ERROR 20.6G
(13+7.6)
18G
(13+5)
21G
(18+2.5)
18G
(17+1)
所要
メモリ
  1.6G 1.6G 1.6G 27G


→一応、上記設定で、ギリギリ普通の高性能PCで動いてます。

(環境は vram24G,メインRam 40G,Ryzen)


⑤C4AIはInstraction-Chatのモデルかつ、なのでParameters設定が必要。
・Defaultの場合→Parameters→Command-Rを設定し、使うタブにSendする。
・Chatの場合は→上記でCommand-Rを設定後に、Instractだと思う。

⑥これにてWebUIで動きましたが、今のメイン環境はLmStudioに切替えてます。
 WebUIも使ってますが、遊ぶ用はLmStudioが楽でいいと思います。



以上。