不正经的AIGC经济报告
前言:AIGC(AI generated content),同时也可称为大模型,即由AI生成内容,前身是大数据。原理是利用大量数据作为数据库,运用算法将数据进行重新组合,从而获得自己想要的数据。 当下,由AIGC衍生出了两个具体的应用场景:大语言模型与图像生成模型。二者都符合上面提到的原理,其中大语言模型是将文字作为原始数据进行操作的,而图像生成模型则是将图像作为原始数据。 而在此之前,无论是大语言还是图像生成,因为其特点是原始数据非常多(例如大语言模型往往能达到百亿甚至千亿的参数),导致想要制作出这样的大模型,需要非常好的硬件条件。同时,大模型的计算不同于传统的CPU、GPU计算。后者往往是一板一眼,说算1+1就不可能算1+2,而大模型则可以通过降低精度的方式来获得比传统方案快得多的速度。由此衍生出了专属于大模型的一系列计算解决方案,包括训练专用显卡(NPU,即神经网络计算单元),专用存储(例如华为ocean stor内置了算力芯片,可以直接完成简单的数据清洗,减少NPU压力),训练-推理机器,以及将这些东西进行集成的一体机(例如最近发布的讯飞星火一体机)。 完成模型的训练工作,就要开始内容分发阶段了。大语言模型的概念被引爆知起源于openAI在22年发布的GPT3,接着是3.5,以及4.0。因为先发优势的存在,让GPT4与openAI在今天之前一直保持着难以逾越的霸主地位。 现在的大模型竞争分为两个赛道,一个是TC,即面向大众(潜在消费者),一个是TB,即面向企业机构。先来说说第一点。 在大模型的竞争中,尽管先后有40多家公司机构(现在可能会更多)宣布开始投入大模型研发,但是在现在的大语言模型竞争中,只有顶尖的选手才有吃螃蟹的权力,即openAI一人。在我所接触到的基本所有大语言模型中,整体实力上还没有人能超过GPT4,其后有前openAI公司员工所做出来的claude2,实测在参数上接近GPT4,但最近已经被物理封锁,处于无法访问的状态。而国内我能认可的比较大的只有三家:讯飞星火和百度文心一言,在其后的还有阿里达摩院的通义系列(包括同义千问大语言模型、通义听悟以及等等)。 其中,文心一言曾经被曝出过收费表,但是至今没有上线收费内容。这是很常见的商业试水,通过观察对爆料的态度来决定是否最终上线功能,而正如我之前所说,只有顶端的选手才配吃肉,所有到不了第一的都只能继续赶超。 讯飞星火,作为背靠华为的企业,能够在如此快的时间里完成大模型开发,并以遥遥领先友商的速度在进行模型能力的迭代更新,那自然是离不开昇腾AI套件的支持了。 这里插个题外话,一方面,昇腾AI套件是多硬件协同配合的,比传统方案中的产品不统一而言,拥有低失误率、快速恢复进度、宽带分配合理等优势,即使算力只是等同于英伟达A100,与H100仍有差距,但是实际效果并不一定比H100差。另一方面,英伟达在国内满地找NPU的时候,开始了对华限售的策略,国内往往是有钱也买不到A100,更别说H100了。所以在我看来,讯飞星火能完成快速迭代,并不需要靠什么程序员连夜加班,而是背靠华为带来的强大优势以及充足供应所导致的。 最后是阿里达摩院的通义。阿里达摩院走了一条同样不平常的道路:开源。 开源,即开放源代码,或者说将程序开放,只要有能力,用户可以自行下载模型到本地(或者阿里云),直接绕过云端进行操作。要想下载的话,直接访问modelscope即可下载。 开源也并不意味着不赚钱,通过开源来吸引客户,然后利用技术收费的模式是很普遍的现象,程序员也往往会通过开源代码来证明自己的实力,从而更容易收获大厂青睐,与offer。 说到开源,就不得不聊聊除了大语言模型以外的另一个内容了:即图像生成模型。 图像生成原本也是openAI进行主导,先后推出了dallE和dallE2,结果半路杀出了两个劲敌:midjourney(MJ) 和 steable diffusion(SD)。前者使用的策略是在reddit(国外社交媒体)上部署自己的机器人,用户给机器人提交需求即可收到图片。后者使用的策略与阿里达摩院相同:开源。 先说midjourney,说到这里又不得不提到大模型的一个特性:如果要拥有高质量的数据库与回答质量,需要真人对生成的结果进行评价,好的就保留,坏的就舍弃。你可以在所有的大模型使用界面里找到这样的反馈按钮。理论上,这样的真人越多,那么模型的反馈就会越多,那么模型就会越来越蒸蒸日上。midjourney生成图片的一大规则就是生成图片后会将图片质量直接进行反馈。再加上几乎免费的政策吸引了大量用户,导致midjourney的模型迭代也非常快(其实我没怎么用过midjourney,这个解释自己感觉也有些牵强,希望能够得到补充)。在大模型时代,迭代快就意味着效果好,效果好了才会有人用。 而后者,steable difussion,同样也是给openAI来了个迎面痛击,但这一次的路径又有所不同。 基于SD超轻量级的定位,只要是支持cuda的显卡都可以进行图片生成(跑图),同时,只要买一个入门级的40显卡,就可以获得不俗的生成速度。这样的优势使得大量平民级玩家得以一撇AIGC的乐趣。甚至SD还支持在本地训练模型,只需要不到一天的时间,多则两三天,就能够得到属于自己的模型。这些策略最终引爆了使用SD的热潮,大量用户乐此不疲地进行着图像的生成,并通过网络将自己的训练模型进行上传,并获取其他用户的反馈,来不断更新自己的模型。 而这些供用户相互交流的平台也因此发现了潜在的商机。因为部署简单,只需要较低的算力成本就可以获得一张精美的AI生成的图片,给用户带来的正反馈是很强的,平台方也不需要损失什么。于是,关于在线图片生成的网页开始变得层出不穷,各种AI生成有关的APP开始频繁登上拍照美化的榜首。 而同大语言模型不同,图片生成并没有绝对意义上的最强者。平台决定不了自己家有哪个用户用了什么方法,训练出来的模型有多惊艳。 所以现在平台普遍的做法是单纯对生成图片进行限制,根据生成图片数量、绘画步数、Adetailer、高清修复等等功能的有无来确定一个“算力”货币。 而在最近,已经有平台开始实行付费会员制度了。例如会员可以获得更多算力货币、拥有更多的绘画步数以及其他功能上的强化。这也是一种赚钱方式,如果做的好的话可以做到细水长流的效果。 除去to C之外,还有另一种思路,即to B,即面向企业。 以to B为发展战略的,我所接触到的只有华为一家是全力在做,其他要么是和商家联手来介入大模型,从而精准引流;要么就是开放接口,让企业接入大模型服务。当然,还有之前说的卖设备。 华为的战略很明显,只面向企业,个人用户根本申请不到华为开发的盘古大模型。而在企业上面,华为花了很多心思,尽可能快地帮助企业完成产品部署。 为了达成战略目标,华为采用的是“基础模型+微调”的方式。基础模型分两层,底层的是盘古大模型,分有百亿参数版本和千亿参数版本。要理解的话,百亿参数约等于GPT3.5,千亿参数约等于GPT4。往上一层是华为在过去所积累的技术实践,例如矿业大模型、政务大模型等。企业可以选择已有的往上一层的行业模型作为起点,也可以另起炉灶,只以盘古大模型为起点。然后根据企业所积累到的数据,创造出独属于企业自己的大模型体系。 可以说,在大语言模型领域,华为成功突破了toC端“王者才配吃肉”的定律,转向toB端,赚企业机构的钱,算是一个很大胆也很成功的举措,据我所知,to B端还没有其他参赛选手,所以华为的这一步棋真的很不错。 近两年以来,只要是和AIGC扯上关系的新闻,往往都能产生股价的过分涨跌,例如openAI刚宣布的那个时候,股价大涨;谷歌Bark出来发现跟GPT相比差远了的时候,股价大跌;讯飞在研发大模型的日子里,出一个新闻就涨一次股价。这些迹象表明,资本已经从之前的共享单车之战、社区买菜之战、大数据之战转到了现在的AIGC之战,AIGC成为了资本的幸运儿。 同时,AIGC还在不断焕发自己的生命力。例如大语言模型中的图片理解,文档理解,虚拟人视频生成;图像生成里的各种新模型层出不穷,技术力不断增强。 但这些还不是AIGC的最终形态,只是一个开始。 从华为在开发者大会上公布小艺接入大模型开始,AIGC的下一个风口似乎已经慢慢展现。 小艺接入大模型,拥有的文本对话与图像生成能力还属于老东西,但是如果能通过自然语言达到操作手机完成复杂动作的能力,那么智能助手将真正成为人们所期望的那个只要说一句话就能帮你完成事情的智能助手。联想到各种设备联动的场景,华为的万物互联理想就会再进一步。 好了,以上就是关于AIGC的经济报告。大多是个人有感而发,缺乏严谨性,不过希望能对你有些帮助。