阿里巴巴视觉算法团队斩获16项CVPR冠军

王小孟
2021-06-28 16:16

6月28日消息,计算机视觉领域顶级会议CVPR 2021竞赛结果今日全部揭晓,阿里巴巴视觉算法团队共斩获16项世界冠军,覆盖图像及视频内容理解、遥感影像分析、视觉问答等场景,多项研究可帮助盲人感知物理世界、识别农业领域灾害等。

format-jpg

据悉,CVPR是AI领域最顶级的学术会议之一,会议每年都会吸引全球顶级高校及Google、微软、Facebook等科技企业参加。阿里巴巴达摩院视觉实验室、手淘算法等团队此次参与了多项高难度视觉任务竞赛,最终在16项竞赛中击败国内外科技公司及高校,斩获16项世界冠军。

在ActivityNet Dense Video Captioning竞赛中,参赛团队算法需要基于一段视频生成前后连贯的句子描述,以帮助盲人理解视频内容。达摩院创新性采用SOTA视频网络及多模态特征融合,同时解决了事件序列描述的问题,可高效AI理解视频内容,最终以METEOR score 10.33的成绩获得第一名。

format-jpg在另外两项竞赛中,达摩院AI算法还准确识别了盲人拍摄的低清晰度照片,帮助盲人看清图片内容。

据介绍,达摩院在CVPR期间还主办了第二届大规模商品图像识别竞赛,最终共有623支队伍报名注册,冠军模型识别准确率超去年10%。

值得一提的是,6月25日,阿里巴巴授予5位达摩院科学家和3个团队“达摩奖”。据悉,这是阿里巴巴最高科技荣誉。

format-jpg

与此同时,阿里巴巴董事会主席兼首席执行官张勇表示,阿里达摩院坚定投入长期基础科学研究,追求世界最前沿的尖端科技突破。“技术研究最重要的是看未来,要定义问题,看今天的研究方向能不能解决明天的问题,要为未来打开可能性。”

张勇称,阿里巴巴将继续坚定投入像量子计算、芯片等长期、基础性研究方向,要的是改变社会的长期的“大结果”。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
阿里巴巴(中国)有限公司9月3日公开一项“视觉设计投放方法及装置”专利。
8月5日消息,今日,阿里巴巴公益公布《2020-2021阿里巴巴集团社会责任报告》。阿里巴巴集团董事会主席兼首席执行官张勇表示,阿里巴巴一直把社会责任当成必须思考和实践的一部分,成为一家活102年的好公司,终极目标就是为社会创造价值,更好的解决社会问题。唯有社会好了,经济好了,人们的生活好了,阿里巴巴才会有更美好的明天。
9月16日消息,“中国科大-阿里巴巴智能计算联合实验室”日前在合肥挂牌成立。实验室重点围绕认知智能、隐私保护计算、智能语音技术,自然语言处理、机器视觉、智能数据处理等方向开展研究,课题面向所有中国科大在职教师开放,征集和评审方式公开透明。双方还将设立人工智能产教融合协同育人基地,探索“新工科”人才的培养。
1月8日消息,据职场社交平台用户爆料, 阿里巴巴人工智能实验室 基本关闭,阿里官网和达摩院都删除了阿里人工智能实验室的相关页面。对此,阿里巴巴回应称,AI labs在上一轮架构变动中已经整体并入云智能,主要的研究方向是计算机视觉机器人。此次官网变动,是由于目前AI labs的组织成员和架构、职能均发生了变化,与此前页面的信息不符,新的部门官网正在制作中,后续会上线独立页面。
2月25日消息,从知情人士处获悉,阿里巴巴将于今日晚间全面开源旗下视频生成模型万相2.1模型。在视频生成方面,万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能,登上VBench榜单第一。据此前介绍,万相2.1支持中英文视频,可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等。
1月12日消息,日前,阿里巴巴、北京智源人工智能研究院、清华大学、中国科学院等联合研究团队发布面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”也是目前我国规模最大的预训练模型。据了解,该模型不仅能提升AI的理解能力,还可基于常识实现AI创作,未来将应用于文本理解、人机交互、视觉问答等场景。
阿里巴巴近日公开一项“电子地图面状地理要素的渲染方法、电子设备及程序产品”专利。
8月12日消息,在国际权威机器视觉问答榜单VQA Leaderboard上,阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。