阿里巴巴推出AI图生视频模型EMO

周兴
2024-02-29 08:27

紧随Sora,阿里也推出AI图生视频模型EMO。

阿里巴巴集团智能计算研究院在近日上线了一款新的AI图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

据悉,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

format-jpg

EMO框架介绍 图源:GitHub官网

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。

技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。

format-jpg

EMO相关论文简介图源:arxiv官网

阿里巴巴集团新任CEO吴泳铭曾表示,为了服务好更多的企业和AI开发者,阿里坚持做好两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。二是创建开放繁荣的AI生态。

过去一年,阿里巴巴在AI方面持续发力,包括阿里云推出通义千问、通义万相等多款对标OpenAI的AI大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfi tAnyone、角色动画模型Animate Anyone等技术,实现多个场景应用。

今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布Plus和Max两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。

阿里方面称,相比于开源版本的Qwen-VL,Plus和Max版本模型在多项图文多模态标准测试中获得了堪比Gemini Ultra和GPT-4V的水准,并大幅超越此前开源模型的最佳水平。

format-jpg

阿里Qwen-VL模型介绍 图源:GitHub官网

除了自研AI模型技术产品之外,阿里还推动投资一些AI大模型公司。在今年2月,阿里领投了国内 AI 大模型团队月之暗面(MoonShot AI)10亿美元的新一轮融资,促使该公司估值高达25亿美元,成为中国 AI 初创公司最大的一笔单轮融资。

在去年10月,阿里参投了百川智能公司3亿美元的A1轮战略融资。官网资料显示,百川智能成立于2023年4月10日,由前搜狗公司CEO王小川创立。公司核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型,且在多个权威评测榜单均名列前茅,下载量突破百万。

format-jpg

百川智能融资历程 图源:天眼查APP截图 

阿里还将AI用在不同领域。在医疗方面,阿里巴巴“医疗AI多癌早筛公益项目”于近日在浙江丽水启动。该项目将达摩院医疗AI前沿技术创新应用于卫生健康领域,希望通过大规模的随机性日常检查,实现多癌早筛,提升当地的数字健康水平,这也是全国首个落地的通过AI实现多癌早筛项目,意味着AI前沿研究走出实验室,有望向更多医疗资源不均衡的地区推广。

据悉,“医疗AI多癌早筛公益项目”不仅增加了早筛的种类和精确度,还可一次早筛多个癌种,将有效提高癌症的筛查效率,提高无症状人群的早期癌症发现率,从而改善癌症患者预后。该项目在丽水将先从胰腺癌和骨质疏松两个病种入手展开早筛,并逐步接入肝癌、食管癌、胃癌、结肠癌、脂肪肝等癌症和慢性病的筛查能力。

在招聘方面,前程无忧与阿里云签订关于“招聘+AI”的全面合作备忘录,双方将基于公共云搭建“招聘+AI平台”,从推荐搜索、AI工程化等方向开展全面合作。同时,前程无忧计划接入大模型,让大模型技术在招聘领域落地。

format-jpg

阿里巴巴“医疗AI多癌早筛公益项目” 图源:阿里巴巴公益官微

阿里云近日发布数据显示,2023年,通过落实“坚持伙伴优先”的生态战略,阿里云与遍布中国133个地级市的12000家伙伴一起,服务了超50万家客户。 

2023年,阿里云为340余家伙伴提供产品生态集成认证,目前已有1300余个伙伴产品完成了与阿里云产品的兼容适配,以更好地在客户侧落地技术方案;区域合作伙伴集成阿里云的业务额同比增加了28%,65家伙伴面向政务、金融、能源、制造、交通等行业推出100余个联合解决方案;2000家服务伙伴已联合成功交付数万个政企项目。

2023年,阿里云发起“通义千问伙伴计划”。朗新、亚信、用友、数字政通、蓝凌、千方等60余家伙伴加入,借助通义大模型家族的技术,推动大模型行业应用。目前阿里云已向伙伴提供了超1200人天技术专家支持,携手伙伴验证了“通义千问”大模型在多个行业应用,涉及智能问答、文章摘要、文案写作、代码辅助、知识库升级等场景。

format-jpg

图源:阿里云公众号

据最新财报显示,截至2023年12月31日止三个月,云智能集团收入为人民币28066百万元(3953百万美元),相较2022年同期的人民币27364百万元增长3%。收入同比增长主要受阿里巴巴并表业务所驱动。不计来自阿里巴巴并表业务的收入同比下降,主要是由于集团通过减少来自利润率较低的项目式合约类收入以持续提升收入质量所致,然而来自公共云产品及服务的收入同比健康增长。 

云智能集团截至2023年12月31日止三个月的经调整息税前利润(税前利润)为人民币2364百万元(333百万美元),相较2022年同期的人民币1269百万元增长86%,主要是由于集团专注于公共云而导致的产品结构改善和运营效率提升所致。

format-jpg

图源:阿里巴巴2023年12月31日止季度业绩公告

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
1月12日消息,日前,阿里巴巴、北京智源人工智能研究院、清华大学、中国科学院等联合研究团队发布面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”也是目前我国规模最大的预训练模型。据了解,该模型不仅能提升AI的理解能力,还可基于常识实现AI创作,未来将应用于文本理解、人机交互、视觉问答等场景。
3月3日消息,阿里巴巴与清华大学联合发布中文多模态预训练AI模型M6。据介绍,预训练语言模型是让AI具备认知能力的关键技术,此次发布的M6模型参数规模达到1000亿,其理解和生成能力超越传统AI。《电商报》获悉,日前,阿里巴巴还与智源研究院、清华大学等联合研究团队发布面向认知的超大规模新型预训练模型“文汇”。该模型提升AI的理解能力,还可基于常识实现AI创作,未来将应用于文本理解、人机交互、视觉问答等场景。
11月15日消息,阿里巴巴发布2025财年第二财季财报。财报显示,阿里巴巴第二财季收入2365.03亿元,同比增长5%。其中,云智能集团营收为296.10亿元,同比增长7%。该增长由公共云业务的双位数增长带动,其中包括AI相关产品采用量的提升AI相关产品收入连续五个季度实现三位数的同比增长。
吴泳铭表示,阿里始终将提升平台治理能力,积极履行社会责任,努力打造清朗、健康、有序的网络空间作为责任与义务。
8月29日消息,在德勤中国全国合伙人大会阿里巴巴集团董事会主席兼CEO、阿里云智能集团董事长兼CEO张勇谈道,AI时代一定会出现新的领军企业,是全新生态形成的过程。新一代AI将在两个层面带来极大改变,一方面对企业来说,AI将极大提升生产力和效率,另一方面对用户来说,有可能出现下一代搜索、社区等新物种的爆发。
7月18日消息,Data ai发布2023年6月中国非游戏厂商及应用出海收入30强,其中厂商收入榜单前半部变化不大,仅合合信息科技上升2位。该厂商旗下商务名片应用CamCard海外用户支出较5月上涨162%,其中日本市场表现最佳。根据Data ai数据显示,6月阿里巴巴整体用户支出较5月提升12%。排名变化较大的应用包括MoboReader、Plant Parent、SUGO以及Resso,前三款产品凭借在特定细分市场成功突围,收入得到显著增长,后者则不幸在印度市场遇冷。
通过训练AI模型,研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片,AI将为该声音找到“主人”。在“1对N”的匹配实验中,AI还能对声音归属人脸的“可能性”进行排序。据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。
9月11日消息,阿里巴巴国际站官方公众号于本周五晚间宣布,在美国 Co-Create2023 大会,旗下AI采购助手“Smart Assistant”正式推出。据介绍,该工具包括智能升级后的图片搜索、RFQ、沟通工具和采购助手等功能,官方表示Smart Assistant可帮助全球中小企业提升采购效率,尤其采购中国商品方面。