可在线运行的notebook示例:
首先需要安装关于量化的依赖:
接着加载4比特量化后的模型,以及设置与Llama对应的提问模板:
最后,你可以向模型进行提问了。这里使用英文提问关于人生的意义的问题: