[懒人包]AI对话懒人包发布解压即用(text-generation-webui)可加载chatglm/rwkv/vicu

2023-05-06 00:10 作者:coyude 0人读过 | 我要投稿

1.前言

5月18日更新:V1版正式发布，启动程序改成图形化界面了，v1版视频教程请看我最新视频 [AI对话]懒人包v1发布图形化启动界面(oobabooga/text-generation-webui)可用chatglm/rwkv/vicuna

前天做了个text-generation-webui的懒人包，为了节省空间，并没有内置任何模型。

因为是第一次做这种懒人包，所以我也不确定懒人包的稳定性。因此如果成功运行了或运行失败请在评论区反馈一下，感激不尽！

如果看不懂图文教程，在网盘里有视频教程，可以查阅。

本地跑模型最少也要6G显存左右(7b量化模型)，如果显存不够，可以查阅文章最后部分的pre_layer选项，即让一部分运算交给显卡，一部分运算交给CPU。

如果你显存不足6G，或者是A卡/者核显用户可以使用llama.cpp，text-generation-webui内置了llama.cpp，只需要下载对应的ggml格式模型即可使用cpu推理。

至于怎么加载ggml模型，这里有个教程视频

没有N卡怎么进行AI对话?(加载ggml模型/llama.cpp)使用text-generation-webui

2.下载链接

网盘我附带了一些量化模型，如果hugging face下载的速度过慢，可以从网盘下载解压。

夸克网盘链接：

我用夸克网盘分享了「[懒人包@coyude]text-generation-webui」，点击链接即可保存。打开「夸克APP」，无需下载在线播放视频，畅享原画5倍速，支持电视投屏。
链接：https://pan.quark.cn/s/27ec3cde648a

百度网盘链接：

链接：https://pan.baidu.com/s/1AXwX7U2RAdV10H8YEitBwA?pwd=1e2r
提取码：1e2r

3.启动器界面展示(丑

4.可能出现的错误

①下载模型的时候，给的用户名+仓库名不对，导致无法下载。

例如我输入114514(，会提示requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: 错误，这是请在Hugging face上复制正确的用户名+仓库名

②加载模型的时候爆显存

例如出现“CUDA out of memory.”

选择加载量化模型或加载更小参数的模型。比如加载的是原版13B模型，那就尝试加载13B 4bit模型，或者7B模型

还有一种方法，如果你加载的是GPTQ量化模型的话，请调GPTQ parameters参数的pre_layer参数

这个70的意思是，有70%的运算是在你显卡进行运行，剩下30%的运算在你的CPU上。

或者....你可以使用CPU推理，但是速度很慢。也可以使用下载ggml模型进行cpu推理。

当然，最有用的方法是花钱升级显卡(

大致教程已经结束，目前懒人包还算是出于测试阶段，有问题请及时反馈，非常感谢！

③如果你加载的是vicuna等llama衍生模型，最好使用英文对话，因为这些模型的中文能力并不强。

④chat模式使用时最好在下方gallery选择example的角色卡进行对话。当然如果你要玩角色扮演的话，肯定要自己去捏角色的。

这篇专栏的第三步介绍了一个捏角色网站，可以查看[AI对话]使用KoboldAI和tavernai进行无限制对话(数据私有化/可以NSFW)

⑤如果要拿来玩角色扮演，最好使用agn-ai或tavernai来调用tgwebui的api（启动tgwebui的时候选择模式2或4，或者自定义启动参数的时候加上--api）

如何部署agn-ai和tavernai？我这里也有两篇专栏

agn-ai:[Agn-AI]用Agn-AI与AI老婆对话(调用openai/claude/text-generation-webui/kob

tavernai:[AI对话]使用KoboldAI和tavernai进行无限制对话(数据私有化/可以NSFW)

5.更新日志

懒人包V1.3.2++版本更新[6.6]：

1.给SillyTavern补上角色卡。

2.添加“打开懒人包环境.bat”文件，方便在启动器无法启动懒人包环境的用户激活懒人包环境

启动器V1.6版本更新[6.6]:

1.修改启动参数关于GPTQ参数和Bitsandbytes参数设置

2.更新管理处新增“打开环境”按钮，方便用户对懒人包环境进行修改。

懒人包V1.3.2版本更新[6.3]：

1.更新text-generation-webui和环境依赖。 2.给懒人包安装上AutoGPTQ。一种新的加载GPTQ量化模型方式(以前的方法是GPTQ-for-LLaMa)。经过测试使用AutoGPTQ加载模型比GPTQ-for-LLaMa加载的文本生成速度要快。目前不清楚使用AutoGPTQ加载模型能不能解决帕斯卡架构显卡使用GPTQ-for-LLaMa加载模型出现乱码(胡言乱语)的问题？🤔有兴趣的可以尝试一下。

启动器V1.5版本更新[6.3]:

1.启动参数中新增启用AutoGPTQ选项 2.激活conda环境改为cd conda+call .\\Scripts\\activate.bat

懒人包V1.3.0更新[6.1]：

1.将内置的TavernAI替换成SillyTavern。另外为了保证可移植性，在首次使用SillyTavern或Agn-ai前都必须先点击更新按钮(安装依赖)，方能运行使用。

PS：为了方便各位调用openai的api(gpt模型)，我依旧将SillyTavern TavernAI和Agn-AI的openai的api服务器都自动修改成我用vercel搭建的反代理服务器 (点击更新按钮即可触发)

2.懒人包中GPTQ环境重新配置，使用了tgwebui的readme上建议的 precompiled wheels(GPTQ-for-LLaMa-Wheels)

启动器V1.4更新[6.1]：

1.将内置的TavernAI替换成SillyTavern。 2.删除QtCore.QCoreApplication.setAttribute(QtCore.Qt.AA_EnableHighDpiScaling) 因为在某些高DPI屏幕下窗口过大。

懒人包V1.2.0更新[5.28]：

1.内置了TavernAI和Agn-AI，均存放在tools文件夹中

PS：为了方便各位调用openai的api(gpt模型)，我将TavernAI和Agn-AI的openai的api服务器都设置成我用vercel搭建的反代理服务器

2.懒人包环境改conda环境

1.重新编辑功能合集页面，新增TavernAI和Agn-AI的对应功能选择以及有用网站。

2.添加QtCore.QCoreApplication.setAttribute(QtCore.Qt.AA_EnableHighDpiScaling)

解决在高分辨率+高缩放比下的排版错误问题（应该）

旧版启动程序在4K屏幕下字体显示不全(尤其是API那个选项）

新版启动程序在4K屏幕下字体显示完整

懒人包V1.0.8更新[5.21]：

将bitsandbytes中的libbitsandbytes_cuda116.dll更改为libbitsandbytes_cuda117.dll
tgwebui内置了几张tavernai上推荐的角色卡(主要都是碧蓝档案)以及自己写的一张猫猫卡(neko)

启动器V1.1更新[5.21]：

启动参数新增两个选项：①是自动分配 ②是让用户选择启动环境，可以选择懒人包环境/本机环境/Conda环境。这样即使用户不使用懒人版环境，也可以使用这个启动器来调用自己的python环境或conda环境（用tgwebui的一键安装脚本安装的conda环境）来启动。增强启动程序的泛用性(bushi

③将自定义参数修改为追加参数，设置该选项不再导致当前设置页面的所有设置失效。