京东探索研究院推出超级深度学习模型ViTAEv2 精准度达91.2%

3月21日消息，近日，京东探索研究院联合悉尼大学推出了更大规模、更优效果、对各类视觉任务具有更好适应性的超级深度学习模型ViTAEv2。

据介绍，具有6亿参数的ViTAEv2模型在不依赖任何外源数据的情况下，获得了ImageNet Real数据集分类准确度“世界排名第一”的成绩，精准高达91.2%，成功刷新图片分类技术领域的世界级纪录。

format-jpg

一直以来，ImageNet数据集作为目前最大的"图像分类"公开数据集，其识别准确率榜单吸引了包括谷歌、微软、Facebook等国际顶尖科技公司以及斯坦福大学、麻省理工大学、新加坡国立大学等知名高校在内的关注并参与，其数据指标一度被广泛应用于衡量计算机视觉技术水平高下的重要标准，影响深远。

计算机视觉技术作为人工智能核心科技之一，目的是赋予机器以观察、感知和理解的能力，而图像分类作为计算机视觉的基础任务更是被广泛认知。本次“榜上有名”的ViTAEv2模型采用了“预训练-微调”范式，从模型架构和训练范式进行突破，充分利用了归纳偏置在大规模模型的有效性，以及与模型结构相适应的预训练算法与迁移学习算法来达成目标效果。

format-jpg

“另外我们还探索了大规模ViTAEv2模型的少样本学习能力，也就是分别使用1%、10%以及100%的数据对大规模ViTAEv2模型进行微调，结果表明仅使用少量数据，即10%的数据进行微调时，大规模模型性能已显著优于使用全部数据的规模较小的模型，进一步证实了大规模模型具有很强的少样本学习能力，这说明超级深度模型具有强大的表征能力、学习能力和样本效率。”京东探索研究院方面表示。

此举充分验证了ViTAEv2模型有能力帮助解决低资源甚至是零资源下的挑战性任务，以及降低数据标注成本、加速算法开发周期、简化模型部署、赋能和促进新一代自动化学习技术的研发和落地的杰出能力。

值得肯定的是，ViTAEv2模型的优异表现助力京东探索研究院计算机视觉模型水平再上新台阶，后续有望继续推动一系列视觉任务的发展，例如语义分割、物体检测、姿态估计、视频物体分割等。未来，如何从训练方法、模型架构设计等方向进一步提升ViTAEv2模型的性能并同时降低训练和推理的成本，是值得进一步探索的研究方向。

format-jpg

值得一提的是，2021年11月30日，在量子位MEET2022智能未来大会上，2021人工智能年度评选结果出炉。京东云荣膺2021年度人工智能领航企业TOP50榜单；京东智能客服言犀也同步上榜2021年度人工智能最佳解决方案TOP10。

近年来，京东云深耕全栈式AI前沿技术。基于计算机视觉以图搜图的搜索应用，其辅助以语音对话交互技术的“拍照购”和“搭配购”功能，能够通过拍照或截图方式，直接匹配搭配好的时尚单品，为消费者奉上了“一站加购”、“一键买齐”的购物新体验。而在商品营销方面，5分钟创作出1000篇文案、覆盖近3000个商品品类、累计生成3000万AI内容的“达人写作”产品，刷新了智能写作的新高度。

此外，京东探索研究院与各大实验室在可信人工智能、超级深度学习、量子机器学习等基础科学领域，持续推进创新研究以及与供应链和各行业的大规模融合应用。京东探索研究院联合中国信息通信研究院发布国内首部《可信人工智能白皮书》，打造全国首个基于SuperPOD架构的超大规模计算集群天琴α，并联合海内外高校提出大规模视觉模型ViTAE。