notebook链接:
首先安装依赖包:
接着使用8比特量化加载模型(GPU性能受限,性能较好电脑可以不量化):
然后设置问答模板:
最后,你可以尝试跟Llama2对话了,但我个人认为它的中文能力很一般,推荐使用英文对话。