text genration webui で C4AIのCommand-R の動作に関して

text genration webui でCohere(C4AI)のCommand-R(35B)とPlus(104B)を何とか動かすことができたので、メモです。
具体的には下記複数の注意点が有り、しばらく動かせずハマっていた為、解説です。

①C4AIのCommand-R系のGGUFに対して、llama_cppに対するVer要求があり動かなかった。(0.2.57以上が必要。)
　→既存最新のWebUI環境なら動く。
②最近のアップデートで、pytorchのVerUpが入った。
　→トラブった場合、installフォルダを抹消して、再インストで対応可能です。
③また、C4AIのモデルはWebUIの設定変えないとロードが困難です。
　・設定項目の解説と、パラメータ設定の補足を下記に記載。
→35BのCommandRはKVキャッシュ用に普通以上に大量のメモリが必要です。
　→ゆえに、35Bはn-ctxを小さくしないとメモリに乗りません。

　（Ropeは1万にしてますが、いくつにすべきか不明)
→104BのCommandR＋はモデルがクッソデカイです。
　→こちらは、普通のオフロードで何とかなります。

項目	Command-R 35Bモデル				104B モデル
量子化,とレイヤ-	Q=2bit , L=41(全部)		iQ3-Jp 41(全)	iQ4-Jp, 41(全部)	Q2-xxs, 45/64
n-ctx	131072	6000	4096	2048	4096
コメント	デフォではエラー	2bitで6k が限界	普段使い	4bで 2kﾄｰｸﾝが限界	103の方はﾄｰｸﾝ数に余裕
所要VRAM	ERROR	20.6G (13+7.6)	18G (13+5)	21G (18+2.5)	18G (17+1)
所要メモリ		1.6G	1.6G	1.6G	27G

→一応、上記設定で、ギリギリ普通の高性能PCで動いてます。

(環境は vram24G,メインRam 40G,Ryzen)

⑤C4AIはInstraction-Chatのモデルかつ、なのでParameters設定が必要。
・Defaultの場合→Parameters→Command-Rを設定し、使うタブにSendする。
・Chatの場合は→上記でCommand-Rを設定後に、Instractだと思う。

⑥これにてWebUIで動きましたが、今のメイン環境はLmStudioに切替えてます。
　WebUIも使ってますが、遊ぶ用はLmStudioが楽でいいと思います。

以上。