搜狗CEO王小川：数字机器人在不断提升

5月26日消息，在日前的2021搜狐科技5G&AI峰会上，搜狗公司CEO王小川发表了主题演讲，分享数字机器人背后的黑科技。

王小川介绍，第一代还很僵硬，第二代的时候从坐立的形象走向站起来，有肢体语言。三季度的时候发布了第四代技术，开始有多种语言，从中文走向英文、俄文，应用也是在海淀知识产权法庭使用。

他指出，2019年的时候有了第六代的大规模肢体语言，到了2020年的时候走向3D，这是更大的突破，从2D到3D使它的肢体和场景有无限的展开。

此外，王小川还在搜狐科技的专访中表示，下一个阶段，包括不断提升“主播”的流畅度，使得大家能够得到更高的理解能力，行业60，我们到85。同时能够在更多场景应用，手语要需要规范的，官方有官方的手语以外，还有方言的手语，全球有全球的手语体系。“我们提两个核心的理念，自然交互、知识计算，知识计算使得最大化的给用户的满足能够提高。”

以下为王小川演讲全文：

搜狗更让人熟悉的产品是输入法搜索，背后也有一套AI的理念和产品，这次和搜狐一块推出柳岩主播形象，背后有更多的内容跟大家分享。

早在2018年，搜狗推出了第一款“数字人”，这是以新华社的崔浩命名合作了“新小浩”的形象，这也是全球第一款AI合成主播的亮相。引起了国际上面的热议，尤其是全球的顶尖媒体，包括像华盛顿邮报、Times，从主流到扩展开有500多家媒体报道事件，当时新华社的人物成为了全球AI人物的亮点。

当然，第一代“数字人”的整个表情和手势还是非常拘束的。之后我们在道路上一直引领着发展，现在我们已经推出了七代“数字人”产品，从第一代，之后2019年第一季度推出了表情更加丰富的“数字人”。

第一代还很僵硬，第二代的时候从坐立的形象走向站起来，有肢体语言。三季度的时候发布了第四代技术，开始有多种语言，从中文走向英文、俄文，应用也是在海淀知识产权法庭使用。

2019年“数字人”有完整的能力，一个感知的人的表情和语言能力，另一方面语言的问答能力合并，客服的能力，这个产品在平安进行了使用。2019年的时候有了第六代的大规模肢体语言，到了2020年的时候走向3D，这是更大的突破，从2D到3D使它的肢体和场景有无限的展开。

在行业应用中，新闻主播是第一代的原型，之后有了AI营养师，在搜狗产品里面跟用户交互，能够使用户的体验度有更多的好感。还有AI的法官，下面的客服和证券也是在使用的，包括平安有“数字人”，我们还有数字人分身。这是著名的气象主播杨丹，我们也数字化了。

为什么会考虑推出“数字人”？源头是搜狗基因里涵盖着搜索，表达了知识获取、和人对话的能力，输入法更强调沟通，输入法和搜索背后的原始核心都是强调的语言。

语言存在两个能力。首先语言承载了沟通的能力，通过语言人和人进行交流。其次语言承载了认知能力，如果没有语言人类是没办法进行深层次思考的。以语言为核心以交互的技术进行沟通，从文字走向语音、图像、视觉。在认知层面的知识计算，语言搜索的核心加进去，里面有对话、翻译的能力，把沟通能力和它的计算思考合在一块。

我们认为有机会给行业人士去制造他们的分身，让他们的知识能力拓展到不止一个肉身去工作，同时让他一天24小时无休地做更多的服务。在行业当中今天有另一个走向是偶像，是打造一个虚拟的情感和崇拜能力，解决行业效率提升的问题。

除了刚才讲的以外，搜狗在语音识别合成里面做了非常多年的积累，今天可以秀一下口音里面背后有大量的技术，包括语音音节的表征迁移技术。比如特朗普口音，下载素材并通过半个小时声音皮肤技术处理，把他的音色提取出来，他就可以说中文了。

这是原始的工作，他的口音还带有川普的音色，我们现在也有更多的技术对他的底层皮肤声音的音节进行更多的修正，一种情况是修正成普通话。同时也有能力修正为其它的各种方言，可以把口音修成普通话，也可以把普通话做成其它的口音，比如陕西口音的合成，有不同方言的合成，也有韵味带进来，有非常多的工作可以让这种口音播报更加自然和有趣。

除了合成里面蕴含的黑科技，搜狗也是行业当中最早实现唇语识别工作。深度学习可以做到的一项工作就是做到了唇语识别，还可以独立工作，不需要语音提取，只看嘴型变化就可以到60%的识别。把语音和口型放在一块，语音非常嘈杂的情况里面几乎只用视觉也可以达到90%的高度，在电梯以及外部环境听不清的地方都可以使用。这不止是处理文字、语音或者简单图像的合成，而是在语音图像的合成里面找到核心的技术。

基于这样的技术，我们可以看到全面的能力，有图像识别、人体识别、语音合成，嘴部语言合成，耳朵听声音，大脑思考变化，面部的表情和嘴唇言语的合成，打造全方位互动的形象，成为更多的分身。

比如银行客服人员，她有真实的原型，但是一旦用自数字合成之后就有孪生的系统。国家在定的法规在保险行业是必须要进行面签，网络上的面签希望节省客服人员的工作量，最后就有这样的虚拟形象和面签，对消费者有一个告知和全程数据录像，解决了金融行业出现的问题。

还有什么工种更有社会意义呢？搜狗跟搜狐完成媒体的升级的同时，我们考虑自己的社会责任。全球大概有4.6亿的听障人士，中国有2700万人，他们直接看电视和网络新闻的时候声音的敏感度不够。

国际公约要求媒体能够提供有听障人士需要的节目，大家看到新闻能够提供听障人士的版本供他们使用，中国08年参与这项公约。在听障人士的节目制作上，与欧美发达国家和港台地区相比，我们相对都是落后的状态，这样的情况并没有引起学界高度重视和跟进，整个的研究水平和实验水平相对偏低。

这样一个技术背后的原因也是有相当大的挑战，国外在发达国家有更多的真实人士配置。我们提倡数字分身的技术是否能够把更多手语主播的能力合成进来变成分身。这是蛮难的，我们有非常多的技术难点。

第一件事情，手语语言并不是纯正的汉语，语法规则不一样。普通话猫追老鼠，手语就是猫、老鼠追，还有开车不准喝酒，开车喝酒不准，要进行一层一层语义的翻译工作。在这种情况下，我们今天看到在新闻电视主播的使用离残疾人士和听障人士是有距离的，打手势的优化程度不足理解度只有60%。而翻译技术上反而帮助我们把正常语序翻译成听障人士需要的语序。

第二件事情，当我们在做手语的时候，“数字人”的表达动作需要非常丰富，尤其是有大的肢体动作和细腻的手势表达，不简单是语言语音的问题，肢体本身成为他们获取信息最重要的场景。随着我们从期待的“数字人”技术进步到今天到大的肢体表演和小的肢体里面，有机会完全手语的表现能力。

第三件事情，不仅是手语，我们发现听障人士表达的时候他们的表情在传递信息，表情参与了整个语义里面。比如他打的手势——“他究竟什么意思”有不同的表情传递不同的意思。比如问句、感叹句、陈述句。在合成的时候不仅要有一个大范围手势和细腻手势，对于表情的联合建模也非常关键，极大提高了他们对语义的理解。

在这样一个大的情况里面把搜狗的语言和语音、图像相关的很多能力用到了，在前期有文本的预处理之后开始用了手语翻译，里面借鉴了机器翻译能力，把手语表征进行合成，形成了自然语言到手语切分的表达，所有的生成一方面是生成手势能力，一方面是生成面部表情，最后合成得到一个新的“数字人”。最终就合成了全球首个AI合成手语主播。

我们今天正式做一个“手语AI合成主播”发布。希望在今年年底之前这样的产品能正式上线，帮助中国人民和全体人民享受更好的数字生活。