text-generation-webui(oobabooga)でRinna-nekomata-14b(GGUF)を正常動作させる事ができたので、イロイロとTipsをメモしておきます。

Tips1: text-generation-webuiの起動オプション(起動時コマンド)の追記に関して
(例としてtext-generation-webuiの1クリック版に--trust-remote-codeを追記する場合)

①追記するべきwebui.pyが無い!
→Windowsのデフォ設定?では、pythonのScriptが表示されない。
 .pyのスクリプトファイルを探すときは、表示設定を変更が必要

→1クリックZip版の場合、起動スクリプトの名称が違うので注意が必要。
 『webui.py』に当たるファイルは『one_click.py』でインストールしたフォルダ(text-generation-webui-mainの直下)にある筈。

②オプションを追記する位置に関して
私の手元のファイルは362行目に『 run_cmd("python server.py {flags}", environment=True)』が有ったので、リモートコードを有効化したい場合は、
『#run_cmd("python server.py {flags}", environment=True)
run_cmd("python server.py --trust-remote-code", environment=True)』などに書き換える。

Tips2:text-generation-webui-main 環境へのパッケージ追加に関して
(例:text-generation-webuiの1クリック版に transformers_stream_generatorを追加する場合)

①使ってる仮想環境をActivateする必要があるので環境を調べてましたが、それ用に『cmd_windows.bat』が準備されており、こちらを起動するだけでOKです。
起動後に出てくるプロンプトに『pip install transformers_stream_generator』でOKです。

Tips3:Rinna-nekomataのGGUFファイルの挙動に関して、
ちょっとtext-generation-webuiのバグっぽい挙動で気になったのですが、
rinna-nekomataのGGUFファイルをWebUIのllama.cppで読み込むと、返答が来ないことが有ります。

具体的には『Output generated in *.** seconds (0.00 tokens/s, 0 tokens, context **, seed ****)』等の様に、返答が無回答になり0.00Tokens/sとなります。

『nekomata-7b+Transformer』や、『XwinのGGUF+llima.cpp』だと発生しないのですが、
『WebUI+nekomata-14bのGGUF+llima.cpp』でよく見ます。

調べていたところ、Defaultタブの場合、Promptとして『Alpaca-with-Input』以外を選択すると正常動作せず、alpaca選択時は正常動作している様子です。


なので、個人的には設定関連にイロイロな課題が有りそうと思っていますが、詳細は未確認です。

とりあえず動いたので、以上って感じです。



あと、nekomataのGGUFはオフィシャルの4Bitが1種と、
 nekomata-14b-instruction.Q4_K_M.gguf
有志の方(mmngaさん)が作った12種類
 mmnga/rinna-nekomata-14b-instruction-gguf
の13種類が有る様ですが、

オフィシャル(nekomata-14b-instruction.Q4_K_M.gguf)と、

mmngaさんの内8bit(rinna-nekomata-14b-instruction-q8_0.gguf)の

両方で確認してますが、同一状況の様子です。

以上。