欢迎光临散文网 会员登陆 & 注册

10.29想法随记

2020-10-30 00:53 作者:君莫舔  | 我要投稿

今天被马博士问到,既然我想靠AI数据博取名声,那总得有个具体点的博法吧?

 

   我的第一反应吧,确实是官面话——“帮公司辅助一个牛逼的产品出来,人们用到这个产品觉得牛逼,那我这个曾经在数据上支持过该产品的人也与有荣焉嘛。”

 

   套话自然被马博士揭穿。

 

   蒋博士也适时非常阴险[滑稽]地补刀——“那我说都是因为算法牛逼呀...反正我从别人那听到的都是说算法牛逼的,没有说数据牛逼的~”

 

    我当时心里吐槽,这话真是......我张口也能说:我反正从吧啦吧啦各种名企高管那里听到的都是说数据牛逼(没吹牛逼,真的有哈)~

 

   然而这么去扯是永远争不出什么名堂的。

 

   下来我也跟**和**吹:“咱换一个思路,要证明我们牛逼,那只要让对手的不牛逼不就行了嘛。”

 

   “那你怎么去证明那些数据不牛逼啊?”

 

   灵魂发问。

 

   ...实际上吧,其实不用科学地去证明什么,毕竟说服大众的方法,并非只有拿“道理”去论证,大众的接受理由很多时候其实没有那么“严谨”。方法很多,不止黑和白。

 

   当然,就追势现在的体量,讲真,也还没走到紫禁之巅的那步。竞争上并没有激烈到需要这类手段并用的程度。

 

   那就此打住。

 

    回归正题,说说我的看法——

 

   算法、算力和数据是拉动人工智能前进的三驾马车。

 

   从运算智能到感知智能以及认知智能,算法是非常核心的组成部分。不过近年来AI在算法上并没有实现飞跃性的进展(全球)。部分原因是,在一些任务中,该类技术所取得的成果并没有显著增加。例如,在图像识别方面,计算机在完成了对人类的超越以后,便没有更多的建树。这也反映了一个事实,即:有待解决的问题越来越难,进展也越来越慢。

 

   姚期智院士在22号的“2020浦江创新论坛全体大会”上也提到过——机器学习算法缺乏可解释性,很多算法处于“黑盒子”状态。如一个科研团队开发了一个房地产估价系统,系统通过算法学习了各地房地产价格大数据,从而能自动评估房地产价格。然而,这套算法像黑盒子一样,很难给出估价的完整依据。这在商业应用上是短板。算法的可解释性问题亟待科研突破。

 

   提这两个例子想说啥呢,就是,纵然我们也在不断努力优化算法,研究算法。但时至今日的情况是,取得突破性进展是非常非常困难的,有一道甚至好几道瓶颈挡在路前。

 

   当然,这对稍微落后的团队追击先头部队提供了机会。大胆四舍五入一下,算法上,大家花不了太多时间又能汇集到同一水平线上来了。

 

   再说算力,这个就我理解跟硬件性能的关系更大。也不是这篇文章主要要探讨的东西,就先略过。

 

   最后是数据。

 

   数据在感知和认知智能中的应用非常广,需求量也极大,理论上训练数据量趋近于无限,模型的效果也会更优。(暂时没有强人工智能,而“无监督学习”在大多新闻报道里也更多的是和“未来”这个词儿一起用的。)

 

   近年的话,大多数做AI产品的企业对标注数据的需求都是巨量的。很多三方供应商的竞争力多展现在“我们有多少TB,多少PB量级的数据”上。实际情况是:问供应商某某数据有没有,供应商满口回答有有有。等实际入场时才发现,数据根本不可用,有些字段错的离谱,有些字段太稀疏,等你做完清洗,剩下的数据可能跑个逻辑回归都够呛,根本没法上深度学习。

 

   同时还存在的问题是:数据造假,比如本身就是造数据的流程上,员工还偷懒再次造假。

 

   还有数据孤岛,有的存在于企业之间,有的企业内部也因为部门竞争产生,各种手段齐出让你的效果大打折扣,脱敏、二次加工、延时等等等等。

 

   光是单一任务模型的训练就需要消耗海量的数据,而从“任务驱动”的阶段到“条件反射”的实现,人工智能要走的路还很长,需要的标注数据会非常多,当然,遇到的低质数据也会是海量。

 

   因此,我认为数据只看走量和打价格战的时代即将过去,未来随着需求的精细化和AI发展阶段的高端、复杂化,质量一定会成为最重要的评估指标。到这个时候才是看标注人员的水平、态度从而反映其竞争力的时候。

 

   写到这儿,感觉我好像光在阐述数据的重要性,而不是应题的说怎么搞个牛逼的数据让人们认识认识。

 

   其实吧,所谓的“AI数据走量已经接近饱和,现在看的是算法的突破”这类说法我觉得并不全对。因为我自己就是干标注的(全职、兼职、创业),我非常清楚那些标注数据大厂(那些号称99.9%的团队/企业)做的数据是个什么质量,最多90分,而且还是极少数。也就是说所谓的“饱和”其实是用很多次品数据喂出来的。

 

   照我看来,牛逼的数据就是真正紧密贴合当前项目需求的高质数据。

 

   我是可以做的。

 

   至于牛逼到让人们用到/看到/聊到某个产品就能想到这家公司的程度...那需要的是团队间的群策群力,而不是某一个人或部门牛逼或自诩牛逼就能做到的。


    或者,你有什么好的想法吗?


[2020年11月上传于追势科技内网]

10.29想法随记的评论 (共 条)

分享到微博请遵守国家法律