我的位置:

香港RISE科技峰会 搜狗为何突然秀出虚拟主播?

发布人:管理员

1531533241631666.jpg

  7月11日,王小川在香港RISE科技大会上秀了一把搜狗的AI黑科技, 其中最为吸睛的要属首次亮相的搜狗全球首个虚拟主播。

  个人认为搜狗选择在此时推出虚拟主播技术或是有自己独特的考量。搜狗在前几天刚拿下Blizzard Challenge 2018 语音合成大赛的冠军,而在上个月,搜狗的视觉研究团队获得了CVPR WAD2018 挑战赛冠军。

  前者是语音合成领域最具权威性、广泛性的国际评测比赛之一,每年都吸引众多国际一流的科研单位和一流企业参赛。后者则是国际上唯一以自动驾驶视觉为核心的顶级评测大赛,以数据规模大、难度高著称。

  在人工智能大赛上接连折桂后,搜狗再度推出虚拟主播技术,更容易给外界传递搜狗已逐步建立起独一无二的人工智能技术的讯号。

  以假乱真搜狗虚拟主播拓展AI新边界

  那么虚拟主播到底是什么?长什么样?王小川在RISE大会上为大家做了最直观的解答。

  “2018年7月9日,RISE大会再次降临香港。”这是央视新闻主播姚雪松同步播报大会新闻的声音,屏幕上还显示出姚雪松的脸,连唇语都能全部对上。不过,屏幕上并非姚雪松本人,而是一个虚拟主播。

  音视频中的“姚雪松”通过对姚雪松真人数十个小时的音视频素材进行训练与计算,按照文本生成一段音视频同步新闻在RISE大会上播报,看起来听起来都与真人播报无异。

  搜狗虚拟主播背后的技术结合了人脸识别、人脸建模、语音合成以及深度学习等多项前沿技术,能将任意文本转化为相应的唇语,为用户提供多模态的交互体验并具备高度的可定制性。简单来说,虚拟主播可以模仿你的声音和说话方式,“复制”你的容貌和面部表情并生成一个“你”,对任意的文本进行播报,当然这个“你”是以音视频的方式出现。

  不得不说,搜狗虚拟主播已经达到以假乱真的程度,这是全球首个高度实用化、定制化的虚拟主播。

  虚拟主播技术的应用场景也非常广泛。首先,作为具备视频内容生产能力的一项技术,该技术可以运用在诸如新闻、媒体内容等场景中,自动实时快捷地生成富媒体内容。

  另外,结合搜狗语音交互系统知音OS能力,可以让虚拟主播具备交互能力,虚拟主播技术可以应用于教育、医疗、客服等多个行业,节约大量的人力成本,还可以应用于各种具备交互能力的智能软硬件。

  最后,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。

  值得一提的是,搜狗还会继续提升虚拟主播的能力,包括丰富虚拟主播的内容方式,应用到媒体内容服务、新闻机构;和语音交互进行结合,生成虚拟个人助理的形象,提升人机交互体验等等。而这样的提升又会促使虚拟主播技术应用到更广泛的领域。

  虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式,从文字表达走向音视频的富媒体表达,刷新了AI的边界。虚拟主播究竟会以何种方式渗入我们人类的生活暂不可知,不过随着AI技术的不断突破,未来虚拟主播打破次元壁和时空,从而无处不在,也不是没有可能。

  以语言为核心的搜狗AI战略布局

  从搜狗搜索到搜狗虚拟主播,背后其实是搜狗以语言为核心的AI战略布局。

  王小川在RISE大会上说,AI时代企业要做的不是多面开花,而应该认准战略方向让技术有的放矢。搜狗认准的这个战略方向就是语言。

  回顾搜狗本身的核心产品,一款是搜狗输入法,另一款是搜狗搜索引擎。前者用语言表达思想,后者本身也是在处理语言,加之近年来搜狗围绕语言处理出了不少智能硬件,足以看出搜狗在语言领域下的功夫。

  事实上,不仅是搜狗,大佬们也纷纷围绕“语言”布局AI。无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话的Google Duplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”的能力来打入AI终端。

  为何大家纷纷下注“语言”呢?

  在王小川看来,“语言”是人工智能皇冠上的明珠,也是AI的未来。“语音、图像通过向量化已经可以被深度学习,很好的解决,但语言做为一种符号,它的处理在今天还是依然最具挑战的事情,掌握一种语言就是掌握了一种灵魂。”

  而搜狗一直在围绕语言主攻两个产品发展方向,一种是自然交互,通过语音和图像让人跟机器能够更自由的表达;另一种是知识计算,包括翻译、问答和对话技术,协助人类处理语言之间的沟通问题。

  这种有的放矢的战略让搜狗收获不少成就。比如,搜狗输入法已经成为中国最大的语音输入法,日均语音输入调用次数峰值达4亿次,可以智能断句、标点预测,语音识别准确率超过98%。

  比如,搜狗运用神经网络机器翻译技术,加之以上亿级双语平行语料训练,搜狗翻译目前已经支持61种语言的互译。搜狗将翻译技术拓展到用户出国和学习工作的使用场景,在今年连续推出了搜狗旅行翻译宝和搜狗录音翻译笔两款智能硬件,后者曾被马化腾、张小龙等多位大佬点赞。

  再比如,搜狗的语音合成支持多种音色选择,通过少量数据即可生成说话者自己的合成音色,实现说话人风格的迁移。

  搜狗也在尝试更多前瞻性举措。比如,王小川判断未来搜索会升级为问答,输入法会演化成辅助对话系统。相对应的,搜狗在加码问答技术,比如搜狗搜索的“立知”功能,未来输入关键词或问句后,搜索引擎或将会直接给出你想了解的答案,人与机器的对话将会更便捷、更高质量。

  搜狗还会有哪些延伸?

  除了对具体AI产品的判断,王小川对AI整体技术发展和产业落地有这样的判断:美国固有的优势在于顶尖的科研技术,而中国的优势在于用户规模和应用领域。目前全球已实现知识共享的联通,前沿的人工智能学术论文发布后,中国可以学习和借鉴前沿的学术成果,并把它转化为生产力。所以在人工智能领域,中国有机会跟美国在应用层面上齐头并进。

  而搜狗正在发挥用户规模和应用领域的优势,拓展交互能力和计算能力。具体做法是拓宽领域、拓展产品线。

  王小川透露,今年年底之前搜狗还会再发布四款新的智能硬件,搜狗的计算能力将被拓展到医疗、法律等垂直领域,机器在垂直领域将变得更加聪明。

  当然,这些拓展仍然依托于搜狗输入法和搜索引擎,并且以语言为核心。

  “技术改变世界”正在成为现实,搜狗在技术领域的开拓创新正驱动着技术的不断落地。相信在未来,搜狗可以持续“让表达和获取信息更简单”,让科技真正地惠及人们生活的方方面面。