使用 qwen.cpp 项目提升 14b 模型的推理速度
可在线运行的notebook:在kaggle网站搜索 qwen-14b-ggml
首先需要下载模型和项目文件:
接着跳转到项目文件夹下:
然后对C++代码进行编译:
那么你就可以使用命令行的形式进行CPU的模型推理了:
但我们想使用GPU的模型推理,那么就要再次进行编译:
此时重新使用命令行就会默认进行GPU形式的模型推理:
这还不算完,我们想使用python代码来调用底层的C++代码,需要安装对应的python包:
安装完后,请跳转出当前目录再运行python代码,因为当前目录有个跟python包重名的文件夹:
最终,我们完成了更快的qwen-14b模型推理:


