欢迎光临散文网 会员登陆 & 注册

【直播回放】ChatGPT专场:聚齐北大、华科、安大、莫大等人才,数据科学...

2023-02-12 23:07 作者:Pzzzzz5142  | 我要投稿

之前放假玩太high了,最近才看到这个直播回放,斗胆来做个省流。(只筛选了一部分言论,然后自己加了一点自己的想法,所以可能也不叫省流(

省流:

个人背景:实验室做nlp的,然后自己跳到ai hpc的硕士二年级学生。

个人首先是比较认可第三位开始讲话的p大dalao的观点,即数据是更重要的,模型反而并没有数据那么重要。一个例子就是已经有非常多的论文证明了,精心筛选的数据用来训练模型比不筛选的数据训练同一个模型,效果能好非常多(具体例子就不举了,基本已经是业内常识了)。但我也觉得这个模型代差是有两到三年左右的。主要有以下几点:

1. 国内之前大模型的尝试是有的,但不多(如p大dalao所说,国内投入其实不多)。而模型变大带来的不仅是成本问题,还有模型训练稳定性和工程实践上的问题。这些问题需要人力和时间才能堆出来。

2. 模型训练本身就是一件耗时的事情。gpt1还是gpt2我忘了,但他们自己在论文中就讲了他们训练参数整错了,但模型已经训了一半了,他们也没钱重新调整到正确的参数去训练。从这点我们就能看出,模型完整训练就已经很难了。而一次完整流程跑通到调试错误到重新跑一次流程,整个过程耗时非常久。huggingface之前有放出来一个bloom模型,用375张a100训了两个月,然后效果比较差,被人批评这么点算力还不够模型训到收敛(Chinchilla optimal)

3. gpu确实是一个问题,特别是美国开始限制高端gpu的出售,算力这块可能比较吃紧。但各大厂现在有的库存卡用来训gpt已经完全足够了。

光模块我也认为p大dalao说的很好,我也感觉挺好(

电费确实很贵,我们导师也想自己做gpu集群,直言自己电费都给不起,更遑论设备费了。因为你不仅要给服务器供电,你还要给空调钱(

gpt贵主要是他的运算量大,比传统应用多了非常多。你检索一个东西可能就查一下就好了,但gpt本身是需要非常多的矩阵乘计算,这个计算差距就不是一个数量级的。因此带来了非常强的硬件和软件挑战。同时如何协调cpu与gpu,甚至多个不同的服务器也是一个非常大的挑战。如何设计更适合ai计算的芯片也是一个非常大的问题。目前也没有一个明确的结论。

国产集成电路dalao认为,目前国产也不差,也不是完全空白的问题,只是一个成本问题。但从我目前粗浅的角度看来,软件适配也是一个问题。堆人力是可以发挥出硬件的实力的,但目前模型结构快速变化,各种新的硬件层出不穷,各种需求也在不断变化,针对这种多变的硬件和软件做人工适配的成本也非常高。(因为要求人即懂软件也懂硬件,这种人的工资是一个问题)

个人尝试回答一下不同数据训出来的ai模型的各种偏见问题。首先可以把ai模型看作是一个非常大的知识记忆库,不管你用什么数据去训练,他可以把那些东西都记住。然后就可以用一些知识提取技术把这些技术给钩出来。在chatgpt中就是rlhf(reinforce learning from human feedback),即用强化学习技术使得模型可以根据人工反馈来表现出人们所期许模型表现出来的“性格”。这也是目前被许多人认可的一个假说,即所有知识都能被模型所学习到,我们如果有合适的手段,我们都能够把这些知识提取出来。当然目前最先进的提取方法就是chatgpt了(这是我口嗨的,欢迎打脸)

一个字一个字的蹦确实就是模型生成的方法,这种被称为自回归生成方法。这种方法的好处就是在生成的时候可以回顾之前生成的结果,从而生成更高质量的语句。目前也有非自回归的方法,主要就是有加速方面的考虑。仔细想想就能知道,直接一下全弄出来肯定比你想半天更快,在机器翻译领域的强者就是之前字节的火山翻译搞出来的一个非自回归模型。速度更快,质量也不弱于自回归方法。但整体而言,非自回归也不是业界主流用法,主要效果不好,加速程度也非常有限。

chatgpt应用不只是搜索,个人秘书以及知识获取也是一个很牛的东西。(stackoverflow月活暴跌也能佐证这一点)

你用模型会对模型有影响吗?可能会,也可能不会。你用的模型参数都已经固定了,你再怎么交互他都还是那个模型。但你输入的数据可能会被openai收集并对chatgpt做增量式训练,从而对模型产生影响。

chatgpt有很多错误,你得自己对这个东西清楚才能更好用,更多是一个辅助的工具。

模型理解人很惊讶吗?nlp从业者可能觉得会比较正常,因为在见过大量数据之后,可能你的语句在他的知识库中已经存在了,他就做这种模式匹配并挑选出回答也是比较正常的。

最后一个老哥说的非常好,现在ai就是会犯错,这个是不可避免的问题。和自动驾驶不同,chatgpt说错了也没啥,但自动驾驶出错了就可能会有非常严重的问题。包括前段时间有人攻击katago成功了,在围棋这种已经研究好几年的,规则明确的,训练数据量大的ai模型看来,依然可以攻击成功就说明,指望ai靠谱基本是不太现实的事情。

最后,希望莫大点个赞呗。(哈哈

【直播回放】ChatGPT专场:聚齐北大、华科、安大、莫大等人才,数据科学...的评论 (共 条)

分享到微博请遵守国家法律