小米自研声音识别算法性能国际排名第一
9月13日消息,小米自研声音识别算法近日取得了最新进展,算法模型领先其他机构,性能国际排名第一。
小米是在Google发布的AudioSet音频标记任务中获得的这一突破。它是音频标记任务影响力最大的数据集,被认为是声音领域的ImageNet (注:计算机视觉领域最著名的数据集,由著名学者李飞飞等主持发布),有较高的权威性。
图源:小米公司公众号
Google将AudioSet数据集分为三个子集,前两个子集用于训练,被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中,小米的声音识别算法模型首次在业界突破了50mAP,刷新了音频标记技术指标,成为截至目前性能最好的模型。此外,小米还发布了一个Mini版模型,适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一,远小于其他机构的模型,但性能却优于其他所有机构。
这项技术的突破意味着小米的声音识别算法能力再次精进,小米的众多智能硬件设备应用此项技术后,可以更敏锐地捕捉和识别环境声音,大幅提升硬件的智能化程度,从而为用户创造更加便捷的智能生活体验。
图源:小米公司公众号
这项算法技术还广泛应用于小米机器人的研发中,大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人CyberOne,可以识别85种环境声音,能够通过听觉感知6类、45种人类情绪。而小米第二代仿生四足机器人CyberDog 2则可以识别38种环境声音,实现更强大的动态响应能力。
目前,小米的声学语音团队已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类,共计5000多款智能产品中。而小爱同学的月活跃用户数量则达到了1.15亿,是世界上最忙的语音助手之一。
据悉,小米自2016年组建AI团队以来,人工智能团队经过7年6次扩展,人员规模已达3000多人。同时,小米AI的技术能力目前已经覆盖了视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态等众多方向,并全面赋能了手机、汽车、AIoT、机器人等多个业务板块。今年4月,小米还正式组建了AI大模型团队,全面拥抱大模型,目前陆续有了一些应用尝试。其中第一个应用大模型,就是将智能语音助理小爱同学升级了大模型版本,并开启邀请测试。
图源:小米公司公众号
值得一提的是,9月11日,小米正式成立集团科协暨院士专家工作站。
中国工程院院士丁文华成为小米院士专家工作站的首位进站院士。他指出,在以手机镜头为代表的成像技术领域,小米实现了光学镜头小型化的重大突破,是行业的佼佼者。小米已经牵头成立了智能图像处理北京市工程研究中心,他希望未来能够努力升级为国家工程研究中心。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
