国产AI来炸场了,媲美Sora的阿里EMO全量免费上线

电商报
2024-04-28 10:11

一张照片就能唱歌,阿里EMO免费上线

万万没想到,国产AI技术的更新迭代真的是太快了。

在ChatGPT的余晖尚未消散之际,OpenAI携Sora横空出世。凭借精准捕捉指令、细腻构建场景、逼真演绎动态的卓越能力,Sora被部分业内人士称其 “人工智能领域的一次突破”。逼真的画面令人很难区分它们是由实拍而得,还是由AI生成。

让人惊讶的是,不少人还在被Sora的视频生成能力征服,而国产大模型已经悄悄带来新的变化。

早在今年2月份,阿里巴巴发布了一款全新的生成式AI模型EMO,并且公布了技术论文。

format-jpg

EMO生成视频案例

具体来说,EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。

而EMO的视频效果,真的让人一愣一愣的。

比如我们上传一张伏地魔的照片,EMO便能制作出他正在唱歌的真实视频,而且形象逼真。仔细观察EMO产出的视频,可以发现人物的口型与背景音乐的同步性极佳,表情变化也十分丰富,使得角色仿佛赋予了生命,整体效果令人印象深刻。

format-jpg

伏地魔演唱《野狼disco》

这样的效果自然引发了很多海外用户、科技巨头的惊叹,大家震惊于EMO的技术实力直逼Sora,EMO也随之成为继Sora之后最受关注的AI模型之一。

很多网友纷纷感叹:“我们正在走进一个新的现实!”

format-jpg

EMO掀起用户讨论热潮

随着EMO模型在技术圈的火爆,为了让所有人都能体验到EMO的强大功能,阿里通义实验室,决定将其全面开放给所有人:4月25日,EMO上线通义APP,阿里通义实验室将其免费集成至通义APP的“全民舞台”频道,所有用户均可免费使用。

在我们实际体验之后发现,这个国产AI工具比论文中的使用步骤还简单。从一张安静的图片,到一个活生生、会唱歌、会讲段子的“人“,只需要十几分钟的时间。

format-jpg

毫无疑问,EMO的诞生以及媲美Sora的技术能力,标志着中国AI大模型持续走在行业前列,正在与国际巨头并驾齐驱。

国产AI进化速度快的吓人

实际上,在Sora模型推出之后,曾有人担忧国产AI无法跟上步伐。有很多人认为:国产AI与Sora之间的差距越来越大。

我们必须承认,国产AI与美国大模型之间的差距的确存在,而明确差距的下一步,就是加速追赶。

目前来看,国产AI在语言模型、视频生成模型、视觉理解模型等很多领域都在加速追赶,像EMO就在音频生成视频的领域做到了业界首创。

几个月之前,国产AI也做过类似的视频生成工作。当时,整体生成的视频时间比较短,基本在10秒以内,并且视频中经常出现错误,不连贯,视频生成的速度也很慢。

可是万万没想到,几个月之后,当前的国产大模型就已经实现分钟级别的audio2video生成,并且视频的形象逼真,人物的表情变化也十分丰富。

format-jpg

同样以阿里EMO模型为例:

从今年2月份放开技术论文到现在,仅仅过去不到2个月的时间,EMO就实现了低门槛使用、全量免费上线等创新体验。

我们实际体验发现,生成一段伏地魔唱歌的视频,只需要等待10分钟左右,即可完成。

令人惊艳的技术迭代速度,才是国产AI的真正实力所在。有媒体评论,talking head技术虽然才出现两三年,但EMO一下子让以前的技术方案变成了“老古董”。

format-jpg

具体来说,EMO是一种富有表现力的音频驱动的肖像视频生成框架,可以根据输入视频的长度生成任何持续时间的视频。区别于Sora的文生视频技术,这种音频驱动的肖像视频框架,无需建模就可驱动肖像开口说话,不仅降低了视频生成成本,还大幅提升了视频生成质量。

毫不夸张地说,我国视频生成技术正在步入崭新的2.0时代,加速缩小与国际先进水平的差距。

见证历史,见证国产AI的奇迹

不难看出,国产AI大模型与行业先进技术并驾齐驱。以EMO模型和通义APP为代表的国产AI,在AI行业的激烈争夺中,持续突破技术壁垒。

而目前国内互联网巨头的大部分大模型都达到或者超过了GPT3.5的能力,全世界也只有中国有这个能力。

诸多行业相关数据也在证实,中国已经成为AI成果和AI专利方面的全球领导者。

来自斯坦福大学人工智能研究院AI Index报告显示,在AI专利方面,中国处于领先位置。2022年,中国以61.1%的比例领跑全球AI专利来源地,远超美国(20.9%)。对比2010年,当时美国在AI专利方面的占比高达54.1%。

国家工业信息安全发展研究中心和工信部电子知识产权中心联合发布的《新一代人工智能专利技术分析报告》同样显示,我国成为全球AI技术创新重要竞争者。

与此同时,国产AI的爆发,也在持续点燃普通用户的参与热情。

数据显示,视频生成模型EMO刚刚上线仅一天的时间,就吸引了400多万用户前来使用体验,其应用全量开放的瞬间,通义APP甚至一度被挤爆,需要排队数小时。

format-jpg

图源:通义千问APP

除了EMO模型的惊艳之外,越来越多的AI创新应用,也在一步步走到我们身边。

前段时间,一款名为“全民舞王”的现象级应用在社交平台上引发热议,用户们纷纷利用该应用让兵马俑跳出科目三的舞步,创意玩法层出不穷,热度持续飙升。除此之外,通义APP也陆续推出了超长文档解析、AI编码助手、AI会议助手等一系列免费且实用的功能,让人工智能真正融入日常生活,提升效率,丰富娱乐体验。

从某种意义上来说,国产AI带来的新一轮工业革命已经开始了。

而作为普通人的我们,正共同见证国产AI行业的蓬勃发展,每一个人都在亲历这一历史性的技术变革,共享国产AI创造的奇迹。

1、该内容为作者独立观点,不代表电商报观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
4月25日消息,通义实验室研发的AI模型——EMO上线通义APP,可开放给所有用户免费使用。打开通义APP,进入“全民舞台”频道,就可来到EMO产品页面“全民唱演”。在歌曲、热梗、表情包中任选一款模板,上传肖像照片,EMO随即就能合成视频。据介绍,通义APP首批上线了80多个EMO模板,包括热门歌曲《上春山》《野狼disco》等,网络热梗“钵钵鸡”“回手掏”等。目前通义APP暂不开放用户自定义音频,用户只能选择APP预置的音频来生成视频。
11月21日消息,在世界互联网大会乌镇峰会上,阿里云“全模态全尺寸的通义开源大模型”被评为2024中国互联网企业创新发展典型案例,成为唯一入选的开源大模型成果案例。据悉,通义Qwen是全球领先的大模型,多次登顶国内外权威大模型榜单,全球范围内基于Qwen的衍生模型数逾7.8万个,Qwen已成为全球规模最大的生成式模型群。
11月21日消息,Qwen2.5-Turbo上线阿里云百炼平台,模型上下文长度扩展至百万tokens。据介绍,Qwen2.5-Turbo是通义千问团队回应社区对处理更长序列的需求推出的全新版本模型。该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字。
阿里资产与绿韵数科合作的“汇纺源”平台在“双11”期间表现卓越,共完成了近百笔棉纺织品交易,交易量近十万吨。
11月21日消息,阿里影业公布截至2024年9月30日止6个月的中期业绩,实现收入约30.51亿元,同比增长17%;毛利润约13.16亿元,同比增长18.21%;归属于公司所有者利润约3.37亿元;经调整EBITA约6.42亿元,同比增长39%。
多元发展成关键,平台寻新增长点。
11月20日消息,2024年世界互联网大会领先科技奖在乌镇揭晓,阿里云面向AI的云计算基础设施获该奖,成为世界互联网大会史上首个以AI基础设施整体获奖的科技成果。
11月19日消息,阿里巴巴-W发布公告,于2024年11月15日,该公司斥资3998.85万美元回购362.88万股。
阿里巴巴在港交所公告称,拟同步发行以美元计价的优先无担保票据和以人民币计价的优先无担保票据。