国产AI来炸场了,媲美Sora的阿里EMO全量免费上线

电商报
2024-04-28 10:11

一张照片就能唱歌,阿里EMO免费上线

万万没想到,国产AI技术的更新迭代真的是太快了。

在ChatGPT的余晖尚未消散之际,OpenAI携Sora横空出世。凭借精准捕捉指令、细腻构建场景、逼真演绎动态的卓越能力,Sora被部分业内人士称其 “人工智能领域的一次突破”。逼真的画面令人很难区分它们是由实拍而得,还是由AI生成。

让人惊讶的是,不少人还在被Sora的视频生成能力征服,而国产大模型已经悄悄带来新的变化。

早在今年2月份,阿里巴巴发布了一款全新的生成式AI模型EMO,并且公布了技术论文。

format-jpg

EMO生成视频案例

具体来说,EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。

而EMO的视频效果,真的让人一愣一愣的。

比如我们上传一张伏地魔的照片,EMO便能制作出他正在唱歌的真实视频,而且形象逼真。仔细观察EMO产出的视频,可以发现人物的口型与背景音乐的同步性极佳,表情变化也十分丰富,使得角色仿佛赋予了生命,整体效果令人印象深刻。

format-jpg

伏地魔演唱《野狼disco》

这样的效果自然引发了很多海外用户、科技巨头的惊叹,大家震惊于EMO的技术实力直逼Sora,EMO也随之成为继Sora之后最受关注的AI模型之一。

很多网友纷纷感叹:“我们正在走进一个新的现实!”

format-jpg

EMO掀起用户讨论热潮

随着EMO模型在技术圈的火爆,为了让所有人都能体验到EMO的强大功能,阿里通义实验室,决定将其全面开放给所有人:4月25日,EMO上线通义APP,阿里通义实验室将其免费集成至通义APP的“全民舞台”频道,所有用户均可免费使用。

在我们实际体验之后发现,这个国产AI工具比论文中的使用步骤还简单。从一张安静的图片,到一个活生生、会唱歌、会讲段子的“人“,只需要十几分钟的时间。

format-jpg

毫无疑问,EMO的诞生以及媲美Sora的技术能力,标志着中国AI大模型持续走在行业前列,正在与国际巨头并驾齐驱。

国产AI进化速度快的吓人

实际上,在Sora模型推出之后,曾有人担忧国产AI无法跟上步伐。有很多人认为:国产AI与Sora之间的差距越来越大。

我们必须承认,国产AI与美国大模型之间的差距的确存在,而明确差距的下一步,就是加速追赶。

目前来看,国产AI在语言模型、视频生成模型、视觉理解模型等很多领域都在加速追赶,像EMO就在音频生成视频的领域做到了业界首创。

几个月之前,国产AI也做过类似的视频生成工作。当时,整体生成的视频时间比较短,基本在10秒以内,并且视频中经常出现错误,不连贯,视频生成的速度也很慢。

可是万万没想到,几个月之后,当前的国产大模型就已经实现分钟级别的audio2video生成,并且视频的形象逼真,人物的表情变化也十分丰富。

format-jpg

同样以阿里EMO模型为例:

从今年2月份放开技术论文到现在,仅仅过去不到2个月的时间,EMO就实现了低门槛使用、全量免费上线等创新体验。

我们实际体验发现,生成一段伏地魔唱歌的视频,只需要等待10分钟左右,即可完成。

令人惊艳的技术迭代速度,才是国产AI的真正实力所在。有媒体评论,talking head技术虽然才出现两三年,但EMO一下子让以前的技术方案变成了“老古董”。

format-jpg

具体来说,EMO是一种富有表现力的音频驱动的肖像视频生成框架,可以根据输入视频的长度生成任何持续时间的视频。区别于Sora的文生视频技术,这种音频驱动的肖像视频框架,无需建模就可驱动肖像开口说话,不仅降低了视频生成成本,还大幅提升了视频生成质量。

毫不夸张地说,我国视频生成技术正在步入崭新的2.0时代,加速缩小与国际先进水平的差距。

见证历史,见证国产AI的奇迹

不难看出,国产AI大模型与行业先进技术并驾齐驱。以EMO模型和通义APP为代表的国产AI,在AI行业的激烈争夺中,持续突破技术壁垒。

而目前国内互联网巨头的大部分大模型都达到或者超过了GPT3.5的能力,全世界也只有中国有这个能力。

诸多行业相关数据也在证实,中国已经成为AI成果和AI专利方面的全球领导者。

来自斯坦福大学人工智能研究院AI Index报告显示,在AI专利方面,中国处于领先位置。2022年,中国以61.1%的比例领跑全球AI专利来源地,远超美国(20.9%)。对比2010年,当时美国在AI专利方面的占比高达54.1%。

国家工业信息安全发展研究中心和工信部电子知识产权中心联合发布的《新一代人工智能专利技术分析报告》同样显示,我国成为全球AI技术创新重要竞争者。

与此同时,国产AI的爆发,也在持续点燃普通用户的参与热情。

数据显示,视频生成模型EMO刚刚上线仅一天的时间,就吸引了400多万用户前来使用体验,其应用全量开放的瞬间,通义APP甚至一度被挤爆,需要排队数小时。

format-jpg

图源:通义千问APP

除了EMO模型的惊艳之外,越来越多的AI创新应用,也在一步步走到我们身边。

前段时间,一款名为“全民舞王”的现象级应用在社交平台上引发热议,用户们纷纷利用该应用让兵马俑跳出科目三的舞步,创意玩法层出不穷,热度持续飙升。除此之外,通义APP也陆续推出了超长文档解析、AI编码助手、AI会议助手等一系列免费且实用的功能,让人工智能真正融入日常生活,提升效率,丰富娱乐体验。

从某种意义上来说,国产AI带来的新一轮工业革命已经开始了。

而作为普通人的我们,正共同见证国产AI行业的蓬勃发展,每一个人都在亲历这一历史性的技术变革,共享国产AI创造的奇迹。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
4月25日消息,通义实验室研发的AI模型——EMO上线通义APP,可开放给所有用户免费使用。打开通义APP,进入“全民舞台”频道,就可来到EMO产品页面“全民唱演”。在歌曲、热梗、表情包中任选一款模板,上传肖像照片,EMO随即就能合成视频。据介绍,通义APP首批上线了80多个EMO模板,包括热门歌曲《上春山》《野狼disco》等,网络热梗“钵钵鸡”“回手掏”等。目前通义APP暂不开放用户自定义音频,用户只能选择APP预置的音频来生成视频。
4月18日消息,阿里开源通义万相首尾帧生视频14B模型,宣布成为业内首个开源的百亿级参数规模首尾帧生视频模型,可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。用户已可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。
4月17日消息,阿里巴巴AI模型DAMO PANDA被FDA (美国食品和药物管理局)认定为“突破性医疗器械”。DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型,可精准识别平扫CT影像中的细微病灶,攻克了胰腺癌早期筛查的国际难题。目前,DAMO PANDA正在国内多地科研试点。
4月16日消息,扬州市破产管理人协会与阿里资产正式签署战略合作框架协议。未来,双方将围绕破产资产处置、法律服务数字化、资源高效配置等领域展开深度合作,共同推动行业专业化、智能化发展。
阿里国际站已发起专项行动,全力帮扶遇到困难的中小外贸商家,4月以来已派出数千名小二,奔赴全国几乎所有外贸产业带。
阿里国际站旗下外贸生意智能工作台OKKI,以14.7%的市场份额位居“工具类市场第一”。
4月10日消息,阿里国际站近日公布了三月新贸节收官成绩。阿里国际站订单量、GMV、支付买家数年同比实现双位数增长,其中新支付买家数年同比增长达85%。
阿里云百炼上线的MCP服务可快速让大模型转化成真实场景的生产力工具。