可在线运行的notebook链接:在kaggle网站搜索:
首先需要安装依赖包:
接着加载八比特量化的模型:
最后即可进行模型推理:
我在一台服务器上测试发现原模型、8比特模型和4比特模型的差距并不是很大,甚至出现了低量化模型效果更好的情况,所以可能具有一定随机性。所以低资源的机器放心跑4比特模型就行了