GPT大模型的技术栈
大模型的技术栈 1、基础设施,计算,存储,网络,核心点在GPU芯片,简单概括就是芯片和基于芯片制造服务器的企业。芯片美国:(英伟达,AMD,INTEL),中国:(海思,海光,)。算力英伟达垄断,占80%以上,AMD占10%左右。海思主要是在中国市场,国产算力投资80%是海思昇腾算力。 2、大模型训练的软件平台, 1)算子加速(cuda,rocM),CANN 2)并行计算框架(tensorflow,pytorch),飞浆,昇思 大模型训练软件平台英伟达垄断,AMD有自己的生态训练软件平台,华为有自己的大模型训练软件平台。 3、大模型训练工程工具MLops,工具五花八门,以开源为主,主要是玩的转也不容易。 4、数据样本,数据获得也不容易,有开源数据集,可训练的能力有限,必须有数据的获取能力, 数据质量要求非常高,中国只是数据量大,质量不高。这个数据都在政府手上和大型互联网公司手上。 5、大模型训练 算力,数据,人才都有解决的企业可以进行大模型训练。门槛极高,中国现在有200个大模型企业,最后剩下百分之个位数,基本上就是互联网大厂,加1-2开源大模型公司。 6、基于大模型的行业应用 基于通用大模型做行业调优训练,基于训练的行业大模型,开发行业应用,这类项目将百花齐放。