欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(40)——来,大模型,喝药了

2023-07-17 11:02 作者:花师小哲-中二  | 我要投稿

最近不知道为什么一个动态莫名其妙地就被啊b推送出去了,到今天都还有一大推点赞的消息。虽然我最近也收获了不少粉丝,感谢大家的关注。

真的好久没更新了,最近被各种事折磨的欲仙欲死(我甚至都还没放暑假,实验室就放半个月,这半个月我很可能还要肝论文),今天稍微抽出点时间讲讲一篇我比较感兴趣的论文:


这个项目因为基本上是我国来做的,所以也有一个中文项目名——给AI的100瓶毒药

1.大模型的评估

其实最近搞得项目就是大模型评估相关,包括写了一篇我觉得很全面的小综述,扔知乎了(动态应该还能找到)。但是那篇文章只是罗列一些知识点,并没有做总结,这里稍微梳理一下。

总体上来说,大模型的评估方法是落后于大模型的发展的,目前最常用的仍然是BLEU、ROUGE等传统方法,基本上是将模型生成的输出和标准答案做比较,最简单的方法就是对比有哪些单词是对上了的,当然,复杂点的方法也没有复杂很多。

这也就是为什么我们觉得市面上很多机器翻译软件实际上翻译的不如ChatGPT,在语气等方面甚至被ChatGPT完爆,但论文中数据往往很好的原因。

当然,这很大程度上也是因为之前的模型性能太差了,现在的模型性能强了一些,就可以让他们直接做选择题了。

当然,选择题其实也不是什么完全的对策,很多时候你能选择出更好的答案,不代表你能生成出这个答案(例如分辨哪一个文章写得好,很多人都能选对,但自己写不一定写得出来)。而且能生成的东西领域可是海量的,最终最靠谱的仍然还是人工评估。但是人工评估又费时费力烧钱。


所以我们看到,目前大模型的评估基本是两条路:

(1)堆量。既然开放域问答的领域很开放,那我就试图全部填满,什么领域都考虑进去。所以就出现了C-EVAL这种包含小学、初高中、大学的超多科目的考试数据集、HELM这种领域无限细分的benchmark、SUPER-NATURALINSTRUCTIONS这样包含1600+种instruction的堆量数据集

(2)冷门领域。堆量基本上是大公司才玩的起的,所以很多旁门左道的评估被提出来,医疗、芯片设计、金融等都还是常见现象,甚至有让大模型作为教师培训者的情况(就是让新手老师讲课,大模型评估这堂课并给出反馈意见,然后研究者再对大模型给出的评估进行评估,什么套娃)

2.毒性与安全

大模型的毒性是从模型性能其实还没有那么强的时候就在关注的话题了,包括谷歌的LAMDA就是一直担心安全问题(尽管LAMDA的论文中真的花了极大的篇幅来介绍他们是怎样尽量减少)所以一直没放出来的。

某种程度上来讲,毒性并不是能完全解决的问题,根本原因在训练上。现在的大模型训练都是从网上爬虫获取大量的文本来训练的,虽然也有很多过滤措施,但训练集中仍然包含着大量毒性内容。最麻烦的是,有些偏见本身就是社会偏见,人类尚且不能克服,就不能指望一个清洗程序能搞定了。

当然,这并不是说我们承认“毒性无法完全抹除”就高枕无忧了,因为之前一些对话系统已经表明模型是有可能放大这种毒性的,也许就像一些人所说的,学习外语时最好学的反而是脏话吧。

更麻烦的问题在于,现在的模型是黑盒,就是说,我么完全不知道模型内部是不是学习到了什么隐藏的很深的毒性。也许在实验中我们用了大量的测试觉得它没问题,但是一旦给公众使用就出现问题(一个男人走进了酒吧.avi)

前不久不是有几个机器人被问一些问题,工程师说AI的回答超乎想象。这很可能并不是演戏,毕竟现实中工程师确实不知道大模型在想什么,毕竟是黑盒模型,而不是人工一条条写的规则。

3.对齐

为了减少毒性,不少研究者给出了各种各样的方法,例如比较出名的就是ChatGPT的对齐方法——RLHF了。

RLHF的想法很简单,简单说就是用现在人们的价值观去纠正过去的价值观,用一批能够一定程度上保证价值观比较正常的人的价值观去纠正训练语料中可成存在的各式各样的价值观。

当然,RLHF还是不够的,OpenAI之后的一个很重要的目标是搞定“超级对齐”。

此外,马斯克也成立了xAI,某种程度上也是为了解决这个问题,LeCun的世界模型的想法也有可能能解决这个问题(然而世界模型还在研究中)

4.阿里的做法——投毒

阿里的做法属于更简单粗暴的类型,就是大量投毒。简单来说,在这篇论文中,阿里请了很多专家设计了大量对抗性样本来测试模型的毒性,这有助于我们去观察模型有哪些弱项,然后就可以针对性的微调来减轻模型的毒性。

这种做法显然是堆量的做法,虽然我个人觉得很难从根本上解决问题,但短期内收益还是有的。

项目给出的几个示例还是很有意思的,例如(就借一下新智元公众号的图片吧):


这就是较为符合现在价值观的回答,对社恐来说比较友好(而不是上来就建议人应该阳光点、出去走走)

5.总结

总的来说,解决大模型毒性,我们仍然有很长很长的路要走,这个问题随着模型性能变强也会越来越棘手(特别是一定会有人借题发挥)。希望能够早日找到一些比较靠谱的方法吧


【花师小哲】当代炼金术(神经网络)前沿(40)——来,大模型,喝药了的评论 (共 条)

分享到微博请遵守国家法律