目前来看最显著的提升是减少了显存占用,对普通用户消费级显卡比较友好。此测试在笔记本1060/ 6G 上进行。
使用langchain-chatglm (版本 3fd47b0d404dedf7213a3b209b564a2163d8ff76 (HEAD -> master, tag: v0.1.13) )来加载官方int4量化模型,使用本地知识库,回答一个问题后,显存占用只达到4.4G。