【嘉宾访谈】京东集团副总裁、京东科技智能客服产品部负责人——何晓冬

2021世界人工智能大会
会议时间
2021年7月8日(下午)
会议地点
世博中心405会议室
采访嘉宾
京东集团副总裁、京东科技智能客服产品部负责人——何晓冬
媒体:先从京东业务开始聊起,京东有很多技术赋能,在电商平台里人工智能、智能化这一块儿,京东人工智能、智能化应用到了什么层面?何晓冬:大家对京东的第一印象是电商,对京东物流也会有印象。京东有非常广的业务,一般人对京东的零售、京东物流、京东云、京东供应链智能化感知比较多,一直都有大量人工智能的应用场景。不同场景、不同行业有不同的应用方式,零售是千人千面、智能化服务、智能化供应链、智能化物流、智能化物流仓/物流车,这一系列应用京东都走在业界前面,京东有全国最大的物流仓,618大家买的东西都是从物流仓里发出来的。所有企业都会有客服的要求,特别是ToC面向顾客的企业,这块儿的智能化有很大空间,京东也走在前面。零售有很多,比如说自动补仓供应链智能化京东做了很多。京东比较特殊,有自营的,对零售链条每个环节都有深度的业务在里面,不光只是做平台,每个链条都有应用的地方。
媒体:很早就开始客服要使用智能化,减少招聘的人数。后来又说智能化后面还要提供同样多的就业,究竟这个平台怎样取得平衡?何晓冬:首先,人工智能技术本身的意义并不是说可以取代人。产业落地时更加关心的是怎样提高价值,价值具化就是成本、体验、效率这几个方向。做智能客服不是为了纯粹把客服人数、话务员、接线员减少,这样会对体验、效率有影响。京东智能客服是有一整套解决方案、一整套系统。其中包括了简单的无人应答机器人,直接面向客户服务。很大一块儿的包括怎么辅助人工客服更高效率地接待客户。还可以迅速地理解用户的需求,把相关的背景知识调出来放在屏幕上,帮助话务员、客服小姐姐不需要再查知识库,就可以直接知道怎么回答这个问题。再比如说,很多时候可以迅速地把对话用户诉求、具体需求总结成需求点,直接写入工单系统进行下一步追踪。某种程度上这一切是客户服务的数字化、智能化更贴切,而不只是客服机器人。过去几年,AI技术在学术界突飞猛进,随后五年是在产业落地的机会,而产业落地要从价值出发,而不是从具体某一个单点的技术出发。做客服是让顾客体验好,打电话在15秒之后迅速有人接起来有回复。再比如说当顾客情绪激动的时候,机器可以给相应的反馈。再比如说智能处理的时候,比如说退货、查询订单、换货的时候,让工单迅速执行,使需求得到满足。这一整套全自动化是我们真正想做的。
媒体:智能化客服在企业内部可以实现降本增效,但在用户端做退货等流程化也可以很快解决。但有很多个性化需要和沟通,通常在智能客服里得不到很好的解决,长时间智能客服反弹会让用户的情绪觉得越来越烦,我们接触到很多用户投诉都是这样的,打很久的电话都解决不了他想要解决的问题。这种情况不少,这种情况用户对平台的美誉度就会下降。一方面,智能化让企业实现降本增效;另一方面,大量智能化使用反而会降低用户对平台的好感度。何晓冬:我不知道你指的是哪个具体的平台,京东的价值是三个:成本、效率、体验。体验在京东一直是最关键放在第一位的,但尽管在京东这么关注体验的情况下还是大量采用智能技术提升客服效果,在保证体验无下降的情况下提高效率。具体而言,比如说怎样更精细化地识别用户的意图,在京东能识别超过3000个意图了,基本覆盖了99%很长尾的用户问题。第二,新的技术不光是单点语音回复,包括历史(对话历史、购买历史),知道用户对哪个订单有问题,订单有哪些信息,背后有知识图谱的整体理解和数据支撑,在此基础上提出解决方案及进一步沟通。京东一直很关注体验本身的提升,不单是成本的下降、效率的提升。如果放弃体验,光谈成本和效率是伪命题。AI是个技术,怎么用AI跟使用方式有关,有些不太懂行的公司、不太注重体验的公司用的比较简单粗暴,就放个所谓的“应答机器人”,你直接找应答机器人,不管答的了还是答不了。坦白说,这样不是好的方式,对公司本身有伤害。这个问题不光是AI的问题,更多是更高层面做Business的时候是从用户出发还是纯粹从成本出发。一方面,技术在不停地提升,希望更高效率更精准地找到答案,更高效率地服务用户。另一方面,使用技术的出发点很重要,至少京东还是很从体验出发的。这不是虚的,体验一直是京东的生命线,将近5亿的用户都是因为“京东体验”带来的。所以,使用方需要真正理解技术的价值在什么地方,以及使用的范围在什么地方,AI的边界在什么地方,由此真正达到降本增效的同时提升体验。
媒体:所谓的“提升体验”目的下,人工客服和智能客服之间怎么协调?何晓冬:从体验出发,技术必须跟使场景紧密结合,在特定的客服场景,人工智能技术和话务员/接线员的配合应该非常紧密。配合有很多种,很多时候问题是通过Message文本的形式进来,会先通过人工客服进行预处理、分流,跟用户交谈几句后理解用户的初步意图。如果对话进行到一定层次,比较难需要更高授权的时候,需要把它转给某一个特定的有相应专业的客服人员处理,转过去的时候还需要做一系列的摘要、事件识别,进行提取,把过去刚聊过几句话的背景和历史进行提取,让接进来的话务员迅速了解当前谈到什么程度了。对顾客来说是无感的,很自然的需求被处理了。但在后台机器和人有很清晰的协作方式。有可能聊了几句之后客服小姐姐和顾客商量出来好的解决方案了,客户也接受了。后面还有很多工作要做,把解决方案输入到工单系统里,这个工作可以交给机器,由机器自动解决。过程中人和机器做了几次交换,人和机器之间互相交接了几次,但顾客来说是看到比较难的需求被顺利地解决了,还能有跟踪,形成全面的闭环,由此形成整体的解决方案。
媒体:您提到目的识别、摘要、情感识别等新功能,开发新功能的时候会不会有技术上的难题,怎么克服的?何晓冬:确实有很多技术难题。举一个例子像情感,常规学术界一般会把情感分成正面和负面两类,但对京东来讲这太粗糙了,不够的。同样是负面情感,你是很焦急还是很愤怒是很不一样的。如果是很愤怒的话是你的东西搞坏了,东西寄丢了,那个时候你可能很愤怒,沟通的方式会不一样。很焦急的正常情况下是24小时能送到,但他可能下午就要要,很急,某种程度上客户希望我们做的很好,但他也可以理解如果实在做不到。不同的沟通方式给用户带来的效果也不一样。某种程度上,顾客、商家、用户交流的时候有点像“博弈”的过程,语言只是媒介,博弈希望达到双赢,两边都可以满意。京东对智能客服的理解是从融合性技术、博弈决策智能角度来看问题的。之前我有时候跟我别的同行一起聊,一般人觉得做智能客服关键技术是语音识别,先识别语音,但实际上真正的技术是远远超出语音识别的,如果只是认为语音识别做好了整个客服就做好了,就相当于图像识别做好了围棋就下好了一样,AlphaGo虽然也是从识别期盼开始的,但背后有一整套博弈和决策过程。客服也是这个角度考虑,技术必须考虑到多轮的互相交锋,但交锋是善意合作型的,不是对抗型的。某种程度上还是博弈,最后达到双赢的效果。从技术角度来说,AI系统最大的技术难点不光是识别语音、语义,而是我理解以后应该说什么,提出什么解决方案,这对知识智能、决策智能有很高的要求,需要我们花很多精力来做。
媒体:刚刚听您说京东也在向政府提供数字化改造方案,语音识别方面。何晓冬:京东在政务、城市方面做了很多工作,“智慧城市”已经介绍一段时间了,都说智能城市、智慧城市。“智慧城市”绝对不是只是建设本身城市,之前说“智慧城市”总觉得是硬件的设施,需要把城市做的有多智能,用摄像头、大服务器、传感器、监测系统来看城市的运作。但其实城市最重要的载体是人,市民是需要被服务的,基层的办事人员(街道办)怎样更高效率地服务市民,城市管理者需要对很多事情迅速决策、迅速判断。围绕“市民服务”角度出发,有些地方提出“办证最多跑一次”,以及很多政务热线都合号变成12345热线,有任何问题都可以打这个号,真正为市民提供服务。今年我们和大同市合作,怎样提供智能化的政府热线,让每一个市民有任何问题都可以随时打通,保证打得进,保证随时有人接,保证所有情况能有人跟办,接了记下来确实办下来了,并且有跟踪的闭环,给市民反馈处理意见。从这个角度出发建设大同的智能化政务“12345”热线。经过半年建设,效果还是不错的。我们的出发点不是为了帮大同市节约几个话务员,这不是我们的初衷。第一,想把服务环节全部数字化,在高峰期,市民有问题要反映抱怨的时候能打得进。市民的第一反馈是有问题的时候打电话打不进没人接,要等很长的忙音,这是很痛苦和愤怒的原因,而现在通过智能热线100%可以被接下来了。第二,怎么提高服务效率?和零售场景差不多,怎样通过支持智能、决策智能,让话务员更好地服务市民,直接给出解决方案推荐,让市民满意,让话务员高效。第三,数字化服务过程中,把市民诉求全部识别出来,把真正的点全部提取出来,从语音到语义理解到知识的匹配,做成结构化数据,进入政府大数据平台、市民服务数据平台。对共性的问题、突发热点问题更快更精准地检测到,还可以实时推送给管理者、市民服务热线主任、不同部委办管理者,让他们迅速地解决问题。之后可以通过自动外呼回拨电话给相应的市民说你上次反映的问题我们追踪了,已经解决了,向你确认一下是否解决了。完善整个服务闭环,还可以做各种各样的归档等进一步分析,这一套数字化和智能化的市民服务会带来真正的体验提升和效率提升。
媒体:你对最近“数据安全”的问题怎么看?人工智能化背后需要大量的数据支撑,没有数据就没法智能,对“数据安全”越来越严格的规定,对人工智能行业发展有没有什么影响?何晓冬:这个问题确实很关键,最近好几个类似的事情。从京东角度来说,这么多年我们一直很关心这个事情,所以倒不是额外的限制。用户隐私就是京东的生命线,所以一直保护的很好。最近提到一些出行数据、地理数据,之前不知道是不是大家关注不够多还是怎样。我感觉数据的保护和数据治理并不是不用数据,而是以一种公开公平可控的方式使用。之前好像只有某些公司因为某种特别的业务原因有这些数据,数据开始慢慢做起来,后来会形成某些层面的优势。大家会讨论是否通过立法、行业规范、行业标准的方式使得数据价值被更多人一起分享,不会形成某些垄断优势,这样数据本身就不会对商业活动造成太大额外的影响。另一方面,安全性和隐私性需要清晰的法律规范,让大家知道边界在什么地方。换句话说,作为公司希望看到一个清晰的边界,虽然看起来有边界限制了我们发展,其实不然,有了边界反而使大家更好地在合规可控的情况下放心发展,是有利的事情。是不是因为有了边界和数据保护使得公司发展速度放慢?我倒不是那么担心,所有的商业活动、科技活动在这个星球上都是被法律规范的。我想大家讨论这个事情更多关心的是公平性,而不是说一定要无限制地用所有的数据。很多人会担心某些实体有了不可控的优势,使得我被迫落后了,这是很多人担心的(事情)。而不是因为数据不限制,人工智能就变烂了。
主持人:之前在北京做媒体专访的时候,媒体老师对多模态技术感兴趣,之前何博士讲过以前传统大家认为智能客服只是语音的交互,但后来数字人技术、多模态应用能让智能客服、颜值能听懂方言、辨情绪,这是人工智能领域比较前沿的技术,可以介绍一下。何晓冬:稍微介绍一下。刚刚说了大同市的热线,新一代智能化服务系统已经不光是通过语音文字和顾客交流,新技术往往通过综合的视觉、手势、语言、表情、语气等着重点一起进行交互。明天的论坛上我会展示完全虚拟的栩栩如生的形象给顾客提供更好的服务,用APP的时候一点“联系客服”会出现真人的形象,而不只是干巴巴的形象说我是客服,你要什么。会出来一个小姐姐的形象问你有什么特别需要的地方,更加直接的情绪直接交流,不光只是语音交流。内部对机器人、人机交互的期望走过几个台阶:第一个台阶:希望机器人有一定的智商,机器人要足够聪明,能够听懂人的意图,有足够的知识回答人的意图。第二个台阶:希望机器人有足够多的情商,当机器人听到顾客在愤怒的时候,你说话的方式、安抚的预期应该是不一样的,在情绪上产生交流和共鸣。第三个台阶:颜值。比如说TPS合成语音是不是很温柔、很悦耳、很好听,形象是不是很美丽、很敏捷、交流很温柔?这一系列是为了提高用户体验,让用户感觉真正是很好的体验交流,而不是硬生生的把问题进行机械式的回答。某种程度上这是新的发展方向,是很重要的发展方向。在商业上,提升用户体验才会提升体验价值。在技术上,提出新的多模态融合技术,视觉和语言怎样融合在一起?视觉表情和语言内容对齐交互Attention深度学习的方式,使得能够合成一个整体,在技术上、商业上有很大的潜力。这是京东在努力做的方向。说到数据,往往会说到隐私性和公平性,我呼吁更多人工智能技术不应该只是追求一味最顶尖的提升,而应该想到普适,要让所有人都用到。像大同市真正打“12345”电话的市民往往是比较普通、比较一般的市民。很多年纪大的市民、文化程度不高的市民口音很重,说有很重方言口音的普通话,怎样让机器人理解这样的语言是很重要的。不能直接反映在某一个比赛识别率的数字上,不管得第一名、第二名,方言不是比赛大家关注的地方,但落地的话是很关注的地方。很多老年人说话的时候中间习惯性会停顿很长时间,问题没说完会想半天再说下去。这对人不是困扰,但对传统的语音识别技术是困扰,机器人会等到人说完了再开始处理决定回复。一般会通过判断语音是不是停了,可能停了超过半秒就认为这个人说完了机器人就开始工作了。但老年人经常说话停半秒,停了一半说话没说完你就开始打断他了,对话就没法交流下去,识别率再高也没有用。能不能加长,停1秒钟、2秒钟行不行?等很久。但另外的问题是等太长了,这边说完话了,这边2秒钟以后还没回应,还在确认的话会使体验比较差。京东人工智能研究院提出新的算法,融合性地看到声学信号和语言语义信息,随时判断语义是否完整,通过声学信号和语义信息的完整度联合判断什么时候这个人说完话了,机器可以开始工作回复了。极大提升了用户体验,通过接通率、对话正确完结率来看到体验的提升。这个提升很难在传统单点人工智能技术里看到,单点看语音识别的榜单、语义识别的榜单,很难看到哪个技术是优化这个点的。但在落地使用的时候会发现这个点极大影响用户体验,会发明融合性智能技术,通过落地使用指标,像电话完结率、电话接通解决率来跟踪解决问题。这是未来几年人工智能落地的时候非常重要的地方。未来五年是很有意思的窗口,过去五年发明了各种各样的人工智能技术,随后五年都可能在各个产业落地。但落地的时候一定要从融合度的角度出发,而不是执着于某一个单点技术。
主持人:这个技术除了政务之外,在金融领域会有应用吗?何晓冬:很多时候银行要办理存款业务、办理对公转账,看到人跟你聊的话会更加放心、可信度会增加。
媒体:通过语音识别交互你的表情,识别你的表情之类的?何晓冬:表情是情绪的一部分,会综合考虑脸部的表情、语气、语义三点来判断情绪。同时反馈你的时候也会通过表情和语调预期回馈情绪。
媒体:更加有情感化。何晓冬:这里有技术的难点,技术难点不光只是在模型上,一般人工智能要成功的话往往需要大量人标注数据。但情绪数据很难生成的,训练一个模型识别情绪需要带有情绪的数据,但带有情绪的数据很难通过外包数据公司生成的,很难让一个人写当你高兴的时候要怎么说话,这是很自然发生的。通过大量的反向数据挖掘、数据增强,在京东现有语料库里进行多次挖掘。从种子情绪数据开始,标注找相似的。京东做了这么多年的客服,基本主要情绪都见过了,每个情绪都能通过各种方式挖出来,由此对情绪的识别会做的更加真实和精准。
电视录制:媒体:何博士先从人机协同方面聊一下AI。何晓冬:之前有人误解人工智能起来了会把人类的工作给取代掉,我们的出发点是人工智能是工具,主要是产生价值,价值可以从成本、效率、体验方面整合产生。以效率举例,并不一定要用AI来取代人,以智能客服为例,不是用智能客服机器人取代客服人员,而是让客服机器人和话务员进行无缝协作。比如说京东618很繁忙的时候,顾客打电话进来如果都找人工客服的话会排很长的队,所以会让机器进行初步的了解诉求。当对话进行到比较深的层次、问题比较困难需要人工接入的时候,会无缝把对话转给客服人员。转的过程中不是简单的切换,而是转的同时会把当前已经聊过的情况、已经理解到的知识、用户的诉求总结出来一并转给客服人员,客服人员可以很快地接起来,具体和顾客商量具体的难题和解决方案。当解决方案达到一定的程度双方都满意的时候还需要进一步工作,传统客服人员需要录入工单、解决方案,这时候如果有智能系统的话,客服人员可以把剩下的工作再交还给机器,让机器做自动的工单输入、工单跟踪、闭环确认。这里面人和机器在工作端交接了好几次,但在顾客体验端是无缝的,顾客的问题经过交流,得到闭环被完美地解决,这是人机协作的方式。
媒体:有没有调研这样会节省多少成本?何晓冬:很难直接算,如果没有机器的话电话需要很长时间才能接待,有机器的话可以使在没有人的时候也可以很好地接待。具体的数字要查一下,由于人工智能的接待,在618高峰期可以超出人工客服的价值。
媒体:政务系统有普适性的概念,能不能再聊一下?何晓冬:比如说在大同市落地了智能“12345”市民热线,12345是为了让市民向政府反馈问题、解决问题。之前是通过话务员接待的,但高峰期往往电话打不进来,所以通过智能化处理百分之百保证每个电话都可以接起来。人工智能落地的时候遇到一些很有启发的点,希望智能系统被每一位市民使用,让每一位市民受益。实际落地的过程中会发现陕西大同市民说话有很强的口音,所以需要对带有很强口音文字也进行识别。还有老年市民说话停顿时间比较长,基于声学的语音检测不能检测到市民是说完了还是没说完,这次通过更加融合性的智能技术,更好地检测顾客是否说完了,及时给予回复。使得人工智能系统不光只是存在于实验室里,而是真正落地场景,使每一个市民普惠地享受到智慧的便利性。
媒体:通过数据再延伸让AI进行学习,更好地普惠市民。何晓冬:对,数据使得AI学习到市民需求,反过来适应市民需求,给市民提供更好的服务。媒体:谢谢!



云平台2.0在这等你!