以前是人去学习机器语言、适应机器,未来是机器学习人的语言、适应人。问及语音交互变革,阿里巴巴天猫精灵首席科学家聂再清表示,我们希望做“懂你的家庭助手”。
疫情期间的人工智能
人工智能在提高防疫工作效率和丰富用户生活方面起到重要作用。一方面,医疗机器人助力一线“医护战士”护理病人,语音智能随访系统协助排查群众身体健康,物流机器人与物流人员协作复工复产。另一方面,在线办公、在线教育走入更多家庭,语音助手在大众心理健康和丰富用户生活上发挥用武之地。
近日,智能音箱天猫精灵在抖音、微博等社交媒体平台走红,用户与天猫精灵玩“你想我猜”、“猜人物”成为热门话题,相关视频播放量过亿。据称,用户写下任意一个名人的名字,以“是”和“不是”回答天猫精灵的询问,在20个问题之内,天猫精灵都能够准确猜中。问答过程中,天猫精灵还像人一样调皮打趣,避免氛围枯燥。
天猫精灵是阿里巴巴集团于2017年推出的一款智能音箱产品,是主要定位在家庭场景的语音助手,当前在中国市场销量排名第一。“你想我猜”功能也被称为“读心术”,是天猫精灵智能聊天中的一项技能。
“我们也注意到近期有大量用户在玩这个技能,读心术走红有点出乎我们的意料。”阿里巴巴天猫精灵首席科学家聂再清表示,很高兴天猫精灵在这个阶段能够给宅在家里的用户带来欢乐。
实际上,自今年1月底以来,天猫精灵联合权威机构陆续上线疫情新闻、智慧课堂、心理健康等内容专题,以及“健康冲顶计划”,帮助用户了解疫情,健康生活,恢复元气。
“你想我猜”简单自然的交互背后,应用的是人工智能领域的深度增强学习算法,与谷歌的阿尔法狗背后算法类似。
“我们希望天猫精灵成为一个懂你的家庭助手。” 聂再清表示,“天猫精灵拥有覆盖亿级实体的知识图谱,掌握百亿级对话库,在这个基础之上,人工智能算法实现通过关键问题找到通往答案的最优路径。并且,通过与用户的交互能够进行自我学习进化,用户使用越多,它就会变得越聪明,越懂你”。
从知识图谱到语音助手
聂再清本硕毕业于清华大学计算机系,2004年获得美国亚利桑那州立大学计算机科学专业博士学位,师从美国人工智能学会前主席Subbarao Kambhampati教授,主攻机器学习、数据挖掘方向。
2004年博士毕业后,聂再清选择回国,加入素有“中国人工智能黄埔军校”之称的微软亚洲研究院。聂再清带领团队开始了从大数据中挖掘实体信息以及实体关系从而建立Web-scale知识图谱的工作,他是微软学术搜索、人立方,以及企业智能助理EDI的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。
研究院学术研究热火朝天,而另一边,互联网创业水大鱼大。2017年,作为十三年的微软老兵,聂再清选择加盟阿里巴巴,担任AI实验室北京研发中心负责人、天猫精灵首席科学家,负责提升人机自然语音交互能力。
“在微软亚洲研究院,我做的学术搜索引擎、人立方(微软研发的关系搜索),是偏实用性的系统。因为是在研究院,系统直接跟用户见面的出口不是那么通畅。我也做聊天机器人、对话理解相关的研究。后来,了解到天猫精灵,跟我做的事情非常相关,而且它能够很快触达用户,大规模接收到用户的反馈,然后通过反馈提升技术,我就很喜欢这一点,加入阿里后发现天猫精灵果然发展很快。”
看似象牙塔里的研究员下海通过互联网做产品技术落地,但聂再清的转型却很顺利。他认为,自己的研究和现在的工作很相关,都是用知识图谱去做语言理解。“从博士期间的研究,到学术搜索、人立方,包括现在的天猫精灵,其实都是做数字世界和物理世界的对应,把这个知识图谱建立起来,把自然语言中的一句话对应到知识图谱上的一个实体ID上,做理解、做交互、挖掘,做出有用户价值的产品。”
对于研究意义和产品落地价值的关系,聂再清说:“研究分偏长期的基础研究和偏短期的应用研究。我个人觉得做应用研究的科研人员最好能够尽快拿到用户的反馈,有用户、有数据、有反馈,才能更好地迭代更新。”关注用户反馈,既体现在把高难度技术创新的攻关优先级聚焦在用户体验的提升最大化上,也体现在一些非技术高地的用户需求细节上。比如,当团队聆听到一些女性用户反馈“为什么天猫精灵只有女声发言人?”后,天猫精灵技术团队短短几个月就推出了男声版语音。
智能音箱争夺家庭语音交互入口
如今任何人通过网络都可以做到“上知天文,下知地理”,但信息检索的方式与我们日常的交流方式相去甚远。美国微软公司最早提出了对话即平台,认为语音交互是这个时代的入口,智能音箱成为科技巨头在AI领域的新赛道。
2014年,亚马逊推出全球首款智能音箱Echo,拉开智能音箱的时代大幕。之后美国的谷歌、苹果、Facebook,中国的京东、阿里、小米、百度、华为先后入局。天猫精灵、小爱、小度等智能音箱越来越多地出现在我们生活中,除了普通音箱外放功能外,越来越多地通过语音口令执行任务。
据全球市场调研公司数据显示,2019年Q1开始,中国已经成为全球最大的智能音箱市场,保有量累计约6000万,按中国4.3亿家庭计算, “家庭设备”标准下的渗透率已经达到14%,预计两年后渗透率将和家庭电视机持平。
智能音箱爆发式增长的背后,是智能语音技术的不断突破和精进。尽管从1952年世界上第一个语音识别系统Audry诞生到现在已经有近70年的时间,但由于技术缺陷、业界期望过高等原因,智能语音一直发展缓慢,近来人工智能和商业应用的加持才使语音技术重焕生机。在具有代表性的Switchboard对话语料库上,深度学习在过去几年中的进步让语音识别能力获得了巨大提升,短短几年时间,词错率已从14%下降到5%。
语音技术是人机交互里很重要的模块,那如何实现人机对话?聂再清举过一个问天猫精灵天气预报的例子。如果用户指令是“明天杭州天气怎么样”,那么实现对话就有以下几件事情要做。首先是意图识别,知道是问天气预报,然后要做一个时间地点的槽填充,把自然语言变成结构化的槽值以后,交给对话引擎,对话引擎会去调第三方天气预报,之后,对话引擎要把反馈出来的值,生产语言反馈给客户,客户听到的不是数据,是自然语言。
由于人类的语言表达的复杂性和多变性,机器如果不能快速准确理解人类的表达就很难给出人们期待的回答。著名AI工程专家王咏刚曾表示,仅仅是智能音箱的唤醒词背后,就蕴含有巨大的技术含量:“想把唤醒词做到唤醒70%以上,唤醒的区间1米到10米,想把唤醒词做到兼容非常多的不同噪音环境是非常非常难的技术,这件事在所有现在已经发售的智能音箱来说,能做好的寥寥无几。”
如何识别语音、实现更好的人机对话就是聂再清加盟阿里后的主要工作,也是他理解人工智能、理解数据科学的主要方式。
2017年,阿里巴巴发布了第一版语音助手天猫精灵,此后陆续推出更新换代产品。从首次面世到1000万台的出货量,天猫精灵仅用了一年半的时间,远快于亚马逊和谷歌推出的同类产品。
对于天猫精灵语音方面碰到的挑战和机遇,聂再清说:“从语言的语音和语义两个层面,我们都面临不少技术难题。语音方面,首先是感知层的挑战,你先得听清嘈杂环境下的声音,要听懂方言口音。到了语义层面,文字已经有了,到底那些概念、意图是什么,要有记忆和上下文理解能力,这又是个挑战。再一个,现在机器还要人来教,未来自学也还有比较大的提高空间。”
阿里去年3月启动方言保护计划和年度规划,通过技术的提高,现在天猫精灵除了普通话,能听会说四川话,后续还将识别更多的方言。
人机交互变革加速IoT发展
人机交互方式变革是物联网IoT发展中关键的一步。伴随人机交互方式演进,从智能设备自身到IoT不断进化,受益的用户群体和使用场景也不断扩大。
早期的DOS操作系统,通过键盘交互,要在实验室和专门场所使用,因为需要学习专门的计算机语言,使用者主要是计算机专业人士。Windows图形操作系统的出现,让更多年轻人可以接触计算机,通过键盘和鼠标进行可视化交互,使用场景也向办公室和家庭拓宽,为PC互联网发展奠定了基础。
智能手机的触控交互相对于PC,进一步降低学习成本,现在几乎随处可见使用智能手机的“低头族”。根据中国互联网络信息中心(CNNIC)统计的最新数据,截至2019年6月,中国14亿人口当中,网民规模达8.54亿,手机网民规模达8.47亿,仍有超过30%的人群是非触网人士。
而基于语音交互的智能设备,让人机交互更加自然,正在普惠更多人群,也将带来IoT的突破性发展和普及。
国际知名调研公司IDC预测,2020年超过40%的用户在家庭应用场景中拥有不止一个终端设备,且将有1亿的用户使用语音交互功能,未来将实现Voice to Everything(V2E),包括智能音箱、家电产品、汽车、企业的办公室设备都将逐步嵌入语音模块。
据介绍,天猫精灵接入了越来越多IoT设备,成为最大的IoT生态开放平台。2019年底,天猫精灵已经接入900多个品牌,可连接2.35亿台智能设备,涵盖大小家电、家装、数码健康、3C车品等各行业。
在采访中,聂再清举了两个IoT的例子。早晨起来我们想开灯、打开窗帘,以前是分两个动作分别来做,现在可以使用智能手机APP来控制IoT,拿起手机、进入程序再操作,而更方便的方式是使用语音直接给灯和窗帘下指令,更理想的方式是,起床闹钟一响,灯自己打开,窗帘自己拉开,这是人工智能加持的IoT要做的事情。
另一个例子是,传统电视要选频道,智能电视搜索内容后要通过上下左右键选择,语音交互的电视则是直接和电视对话,选择需要的内容。
“以前是人去学习机器语言、适应机器,未来是机器学习人的语言、适应人。”聂再清强调。
聂再清表示:“人生活在两个世界,一个叫物理世界,看得见摸得着,还有个虚拟的数字世界,也天天影响我们的生活。我们做天猫精灵这样一个语音助手,就是在数字世界建一张图谱,让这个助手,能把数字世界和物理世界一一对应起来,去帮你处理很多事情。只有这张图谱完善,匹配很好,我们的数字世界的助手才能够知道,然后可以去很好地在物理世界帮助你。”
今年1月,阿里巴巴升级在IoT上战略布局,将天猫精灵业务升级为独立事业部,由阿里云IoT负责人库伟负责,将进一步推动AI与IoT的结合。
亲切、坚持跑步的科学家
聂再清脸上挂着梨涡,给人感觉亲切、乐天。聂再清说:“乐天的话,我感觉自己还行吧。以前我们老板觉得我好像还比较执着,算比较有韧性。”阿里同事在内网给聂再清贴的标签有:可爱的聂老师、亲切和蔼、超好的老板、Ted讲者、非常非常亲切的科学家等。
工作之余,聂再清的爱好不多,但会坚持跑步。“以前其实也跑,阿里也提认真生活嘛,最近一段时间,我几乎每天都跑步。”
闲谈间,聂再清谈及最近印象比较深的畅销书《人类简史》。
《人类简史》中提到,智人发展出语言技能,让他们能够八卦,分享部落信息,可以一起想象并虚构故事,发展出更紧密、更复杂的合作形式。“里面说到人跟动物的区别,八卦和想象。这两者密切相关,八卦就是可能你没看到,但是我讲出来让你想象出来。想象力是我进阿里以后觉得特别重要的一个东西,包括企业文化、企业制度、一个部门里面整个机制,其实都跟想像力非常相关。”聂再清说。
读懂了过去还要预见未来,5G时代、智联网时代何尝不需要想象力呢?美国知名投资机构Mangrove Capital Partners在《2019年语音技术报告》中,给语音下了一个宏大的定义——欢迎下一代的颠覆者。
未来,语音技术将更深远地影响我们的生活。聂再清说:“5G加速智联网时代的到来,未来在家里,可能很多硬件设备你都能够对话,然后在云上有个助手能够去理解你,帮你去做很多事情。这也是我们天天努力在做的事情,希望尽快实现。”
数据科学50人成员
聂再清简介
2004年获得美国亚利桑那州立大学博士学位,师从美国人工智能学会前主席Subbarao Kambhampati教授,此前曾就读于清华大学计算机科学与技术系。2017年10月,聂在清博士加入阿里巴巴,现任阿里巴巴天猫精灵首席科学家,也是教育部人工智能专家组咨询组专家。聂再清博士带领团队旨在通过远场语音识别、自然语言理解、个性化推荐等语音助手领域关键算法突破和创新,全面提升人机自然语音交互能力,打造智联网时代的个人助手全新体验。此前,聂再清博士就职于微软亚洲研究院,任首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作。他是微软学术搜索,人立方,以及企业智能助理EDI的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。
关于数据科学50人
“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访与社群组织,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。
浙江还同步推出三大保障举措:建设“平台+产业”综合服务站,选配人工智能辅导员,搭建一批合作对接平台,助力企业运用AI技术挖掘新商机。
科思科技、东杰智能20%涨停,山河智能、能科科技等涨停,万里马、阳光诺和等涨超10%。
一批重大项目集中签约,涵盖智能驾驶、具身智能和机器人等领域,共有31个项目签约,投资额超过150亿元。
截至目前,平台已汇聚行业垂类大小模型244个,高质量数据集158个,并打造了国产化专区、具身智能、智慧电网等特色行业化专区。
各方表示,愿以开放包容的态度深化国际合作,打破技术壁垒与发展鸿沟,共同构建人工智能全球治理体系和标准规范。