欢迎光临散文网 会员登陆 & 注册

斯坦福 2022 年 AI 指数报告精读【论文精读】

2022-03-25 21:57 作者:小清舍  | 我要投稿

斯坦福2022年AI指数报告精读

报告是由斯坦福下的一个机构HAI撰写

全称是以人为中心的人工智能,虚拟机构,是一个由李飞飞老师和另一位斯坦福做逻辑的老师共同建立

从2017年开始每年发布一个AI指数报告,今年第5期

2020年未发布

覆盖面比较广230页

正文

8个重点

  1. 2021年私人投资在AI上增加很多,将近1000亿美金投资,比2020年多1倍,投资更加集中
  2. 中美跨国研究合作最多
  3. 语言模型更强也更有偏见,2018年bert1亿参数,2021年2800亿参数模型生成出来的那些带有偏见的有毒的结果增加了29%,因为大模型使用更大的数据,这些数据不像小数据那么能够给你精心准备,而且大模型更容易把大数据里带有偏见的一些东西显现出来
  4. AI伦理文章越来越多
  5. AI变得越来越便宜,性能越来越高,训练一个图片分类器的开销从2018年到现在相比的话下降了3.6%,训练的时间缩短了94.4%,这是因为gpu做的越来越大了,如果不计算挖矿导致的GPU价格升高的话,其实他的成本是往下降的,而且我们现在能够用更大的集群,用更好的算法能做分布式的训练,所以它的整体计算时间是下降的
  6. 在报告的10个数据集上面,9个数据集最好的方法用了额外的数据
  7. 在全球范围内关于AI的立法也越来越多了
  8. 机械臂变得越来越便宜了,在2017年平均一个机械臂的价格是4万美金,现在基本只要一半的价格

技术发展曲线

刚刚冒出来-做大做便宜-更安全

很多突破性工作已经做出,这两年没有很大突破性工作


文章目录

第一章论文专利情况


过去11年AI相关论文的个数,现在一年30万篇,很多是同学们的练习题

99%的文章可能是没有太多意义的,一年读50篇已经是非常好了

文章类别

repository 是ArXiv文章未经过同行审议

杂志和会议比较认可为学术成果

杂志比会议赚钱要交版面费

论文标签汇总

机器学习和模式识别的区别在于

模式识别讲的是一个任务,在数据里面去识别某一个任务出来,比如图片识别,目标检测都是模式识别的任务

机器学习是其中的一个技术,可以使用机器学习技术解决模式识别

机器学习不一样的地方是,从数据里面训练一个模型,再去数据里面发现规律


每篇文章的作者都来自什么机构

发表国家划分

美国情况

中国情况


中美科学家合作写论文的数量


其他国家合作情况

杂志的文章主要来自哪些国家


所有杂志文章按国家划分的总引用数

会议文章统计按国家分


会议引用数对比,中国的引用数还是比美国少很多


发在ArXiv上文章来自不同国家的情况分布

更关心文章影响力和跟别的科学家进行交流

发在ArXiv上文章引用数

AI相关的专利


分析比较大的会议的人数情况


第二章 技术的进展


22:52




目录 按领域划分





计算机视觉——图片

图片分类

ImageNet


按年份划分准确率的提升情况


TOP5精度情况


ImageNet刷精度的必要没有那么大,2017年就精度超过人类,但对计算机视觉图片识别上还是有一点差距

对于各种情况的识别,数据不充分,很难收集足够数据,齐全分类上还是有距离需要继续做

大家都刷ImageNet的原因:

  1. 有名
  2. 没有比ImageNet好很多的数据来能够测试
  3. ImageNet数据集还是够大,所以一个模型在上面表现得很好,比如A比B好,因此A很有可能在其他任务上也比B好,因此算是一个比较靠谱的数据集

图片生成上进展很大

衡量指标FID

真实图片和生成图片的区别

衡量关系,高斯分布

STL-10数据集上的情况

Deepfake 检测

GAN出来后

把一个人的换到另外一个人的脸上

出现了一些法律,禁止Deepfake用在一些领域

以防虚假信息生成等误导大众

主要数据集:FaceForensics++ 来自youtube主要判断视频的真假,用模型跑生成的视频和真实视频对比


名人数据集Celeb-DF

这一段判断还没有那么准确

人姿态估计

找关键点,做体育分析,人监控,交通手语识别

传感器采集,有场地限制

主要数据集:PCK

在Flickr上采集的2000张运动员图片

判断14个关节的不同位置

精度

Human3.6:3D的人姿势识别

17种不同姿势,判断关节点的位置和真实位置的误差

误差已经缩小到2厘米

语义分割:对图片的每一个像素去判断他属于哪一类



主要应用在无人车,看到地方什么是可以开的路面什么是人行道,什么地方是建筑,什么地方是天空,或者做一些图片的分析,哪个是前景哪个是后景,比如相机照片背景模糊

医疗诊断里面判断有没有肿瘤

数据集Cityscapes

在50个城市里面开车然后录下的一些视频做分割

评测标准IoU

进展迅速

医疗图片语义分割

两数据集,精度提升

误诊伤害不大,漏诊就严重

人脸检测与识别

检测把脸找出来,识别人是谁

识别检测率误差下降明显

但是人脸识别的应用带来了隐私的安全问题

有国家出台法律禁止人脸技术在公共场合被使用

戴口罩的人脸检测识别

错误率相对没带口罩还是大

视觉推理


视觉问答

给一个图片问问题,判断答案准确与否


进展显著

水平线代表人回复的精度

只代表这个数据集,实际上和真实相比还有很长路要走

视觉——视频

行为识别:给一段视频判断里面在干什么

比如有人在走路、挥手、和别人说话

重要数据集:Kinetics

youtube上找了几十万个视频把它分类到不同的种类里面


三个数据集精度

时序动作定位任务:比如给700个小时视频里面有200个不同的行为,需要找出一个动作是从哪开始到哪结束,判断在视频中的位置

精度还有很大提升空间

物体检测-不太准确,这里应该放到图片下,这里搞得像语义分割或实例分割

COCO虽然有物体检测任务

目标检测在计算机视觉的应用最广泛,最多人研究,进展也不错,COCO数据集的地位可以和ImageNet媲美

指标mAP

视觉常识推理


方向小众,和人类还是有一段差距

NLP

英语语言理解

SuperGLUE数据集

任务

  1. 给一段文字,问一个问题
  2. 给一段文字,提出一个猜想,然后机器回答这些文字能不能支持猜想
  3. 提出一个前置 给出两个选项,判断哪个符合前置

进步大,超过人类

另外两个数据集

文本摘要

给一段很长的话,把里面的重点摘出来

arXiv数据集,把所有论文爬下来,根据正文预测摘要

评估指标:ROUGE

即生成的摘要和数据集提供的真实的摘要里面的一些子片段的一个重合的一个评估

有一些进展,但过年两年进展一般,还有很多空间可以去做

自然语言推理

给一句话,再给一句话,判断下面移居话和上面一句话到底是冲突的关系还是没有什么关系,或者后面一个关系是前面一句话的增强关系

这个三分类的任务进度还可以




拓展自然语言推理

有两个观察

给出两个假设,判断哪个符合观察的结论

想象空间更多,更符合人类交流

精度快达到人类,但研究的还是很简化的问题

从几个选项中选择对的,而不是要你把选项找出来

情感分析

对上牌好坏的判断,或者大家对未来的一些正面还是负面

精度

机器翻译

WMT数据集


评估指标 BLUE SCORE

判断翻译出来的句子和真实的句子那些子序列重合的个数


一般常用句子翻译还可以效果,但是如果翻译论文或者一些专业领域的翻译会差一点,一些特殊领域还是有很多问题


过去一些年商业服务和开源服务的区别,没有很多开源的预训练模型,很多都是商业模型,因为翻译是比较好的商业模式,所以机器翻译一般还是大厂的游戏


语音

语音识别:讲一段话,识别讲的话是哪些词

干净版本VS不干净版本(有噪音)

在有噪声、口音、专业词汇的情况下,精度不那么高

推荐系统


MovieLens数据集,是一个电影推荐网站

爬了2000万个用户看了哪些电影的记录

来推荐要把那个电影推给哪些用户

近几年进展不那么迅速

不能代表整个推荐系统(不完备全面)

主要还是大厂干的,需要生态,用户,根据业务、产品形态


广告点击预测


一个广告用户会不会点

广告点击也是大厂的游戏

公开数据集不能很好的反应在真实的应用数据集的一个情况



强化学习

需要环境,每一次你的模型做一个行动,环境告诉你的行动是有奖励还是有惩罚

环境就是数据集

Atari游戏平台上的57个游戏,模型控制游戏机去玩游戏,根据里面的奖惩机制不断调整算法目标是能够拿到更高游戏的分数



进展很大

下棋


硬件

MLPerf:工业界的评测集来评测各个不同硬件系统和软件系统,在不同的模型上达到特定的精度所花的时间



一个任务最多用了多少加速器

GPU或TPU

代价太大

在ImageNet上训练得到93%的top five精度的成本是怎样子


机器人手臂


价格

每一年机械臂型号的一些特点

做机械臂用的一些技术


大部分数据来自paper with code

AI伦理

主要关心一个模型可能会对人造成的伤害

比如商业人脸识别系统可能有种族的歧视

简历筛选系统歧视女性,年龄

AI驱动的健康工具可能会在背后区分你的经济地位

关注公平性,偏见


把年龄,性别,种族改了之后不会影响模型结果

公平、偏见指标

测试公平偏见的数据集和一些诊断指标


在NLP里面的一些偏见指标

毒性:语言不文明不礼貌

语言模型生成文本的时候,生成了有毒的文本的概率是怎样子,不同训练样本,训练毒性不一样

DeepMind不同大小语言模型对毒性的一些敏感程度


语言模型消毒

模型性能可能下降

刻板印象指标

模型越大刻板印象增加

改进,bert

不同模型填空精度不一样,模型大会好一些

性别填空

AI判定虚假消息



不同判断的数据集的增长

案例分析CLIP模型里面的一些偏见

CLIP更容易把黑人的脸和非人类的动物名字和犯罪相关的名词关联更紧一些

CLIP判断文本与图片的相似度

经济教育

不同地区里面所有在Linkein上的招聘帖里面要求有AI相关技能的百分比

这一块不准确,数据都来自领英

哪些专业要求更多

行业招聘AI



斯坦福 2022 年 AI 指数报告精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律