SMP 2023 ChatGLM金融大模型挑战赛环境如何配置?专属新手的保姆及教程来啦!
我手上有个超级酷炫的消息要分享给大家!安硕信息、阿里云和魔搭社区联手发起了「ChatGLM 金融大模型挑战赛」!
这次挑战赛的目标非常明确,就是利用咱们自家炉火纯青的大型语言模型,为金融行业提供一流的、贴心的服务。我兄弟,为了激发我们头脑中的创意火花,组委会可是给咱们提供了堪称豪华的资源支持!算力?别提了,绝对是够狠的,数据?绝对是丰富到爆的,技术支持?嘿嘿,有问必答,秒回不手软!
等等,关键来了!冠军岂止是场面上的获胜者?咱们最后的奖励可是层出不穷,听好了!现金奖金三万大洋,顶级 ChatGLM2-12B 模型商业授权价值 180 万大洋,还有价值三十大洋的 GPU 算力使用权!嗷嗷嗷,这可是让咱们飞跃向前的机会!
我们的任务就是把ChatGLM2-6B模型玩得风生水起,打造一个超级智能的金融问答系统,给用户提供无与伦比的精准解答!记住,除了这款大型语言模型,其他都不许碰,但你可以利用公开的数据来给模型做微调,还可以施展出绝活,使用向量数据库等最新技术来提升系统的性能哦!
咱们这场挑战绝对是金融领域语言模型应用的创新新突破,它将带来不同领域间的紧密融合。我们每个人都是活雷锋,踏上这个异想天开的探索之旅!在这个广袤的知识海洋里,让我们搅动起思想的涟漪,激发出独特的灵感火花!一起走向辉煌,创造属于我们自己的传奇!
那么本次比赛最基本的环境该如何配置呢?欢迎新手小白们用我的以下方法进行尝试:
根据官方给出的资料可以看出需要去两种网址进行下载:

一、模型下载(ChatGLM2-6B)
pip install --upgrade torch
pip install transformers -U
# modelscope >= 1.7.2
二、数据集下载(ChatGLM评估挑战赛-金融赛道数据集)
1、datasets包最新版本有兼容性问题,需要安装2.8.0版本,执行:pip3 install datasets==2.8.0
2、git加载,执行:git clone
http://www.modelscope.cn/datasets/modelscope/chatglm_llm_fintech_raw_dataset.git
3、sdk加载:
1)datasets版本限制为 >=2.8.0, <=2.13.0,可执行: pip3 install datasets==2.13.0
2)请将modelscope sdk升级到v1.7.2rc0,执行: pip3 install "modelscope==1.7.2rc0" -f
https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
3)
a、创建个text.py文件,内容如下:
from modelscope.msdatasets import MsDataset # 使用流式方式加载「推荐」 # 无需全量加载到cache,随下随处理 # 其中,通过设置 stream_batch_size 可以使用batch的方式加载 ds = MsDataset.load('chatglm_llm_fintech_raw_dataset', split='train', use_streaming=True, stream_batch_size=1) for item in ds: print(item) # 加载结果示例(单条,pdf:FILE字段值为该pdf文件本地缓存路径,文件名做了SHA转码,可以直接打开) {'name': ['2020-03-24__北京鼎汉技术集团股份有限公司__300011__鼎汉技术__2019年__年度报告.pdf'], 'pdf:FILE': ['~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/430da7c46fb80d4d095a57b4fb223258ffa1afe8bf53d0484e3f2650f5904b5c']}
b、执行python text.py
进行文件加载
(c、如果出现报错:numpy.core.multiarray failed to import
,可执行:pip install -U numpy
,若你为非root用户记得加上sudo
)

以上就是我在配置SMP 2023 ChatGLM金融大模型挑战赛环境的全过程,希望可以帮到大家。欢迎发私信与我共同讨论更多该领域的知识!