对标Sora,清华搞的视频AI来了

李迎
2024-08-01 21:00

又是一种新的感觉。

一、快手可灵不再独步武林

2022年ChatGPT的崛起点燃了国内外各大企业对AI大模型的热情,这把火燃到现在从文字大模型到图片大模型,终于也点燃到了视频大模型。

恰好近期,国内的视频AI大模型一个个正式浮出水面,没成想作为先行者的Sora还未正式开发出实用产品,这些个“国产Sora”反而先斗了起来。

说到“国产Sora”,今年以来最威风的就是快手的可灵AI,从概念的发布到可灵AI的正式上线,相关的报道数不胜数。

这不,就在这几天,智谱上线了清影AI,今年4月小火一把的清华系视频大模型Vidu也正式上线。

Vidu是生数科技与清华大学联合研究的视频大模型,自诞生起对标的就是Sora大模型,同样也拥有文字生成视频图片生成视频的功能。

图片

图源:Vidu官网

清华大学作为国内顶尖的高等学府,在人工智能领域的研究一直处于领先地位,正因如此由清华团队一手打造的Vidu也身负着比快手可灵更重的期待。

此次Vidu的全球上线,不仅是国产视频大模型技术上的突破,更是对全球AI视频生成技术发展趋势的一次有力回应。

在全球范围内,AI视频生成技术正以惊人的速度发展,各大科技公司纷纷推出自己的视频生成模型,试图在这一新兴领域占据一席之地。

然而,大多数模型仍处于概念或测试阶段,真正能够面向公众开放使用的并不多见,恰好Vidu是后者,并且一上线面向的就是全球的用户。

实际上,相对于快手的可灵ai而言,Vidu的理论战力更接近Sora。

首先,Vidu的工作原理基于一种融合了Diffusion和Transformer的U-ViT架构,这一架构由生数科技早在2022年9月提出,比Sora的DiT架构更早

这种架构的优势在于其能够更好地模拟真实世界的物理原理,同时保持视频中主体的一致性,也是早前Vidu宣称对标Sora的底气所在。

其次,Vidu在创新上也毫不逊色。它不仅支持文生视频、图生视频两大功能,还能在极短的时间内生成高质量的视频内容。

根据官方自己的宣传,只需3次眨眼的时间,就能生成一段4秒的视频

图片

图源:Vidu官网

而根据实测下来的结果,发现哪怕是用CPU核显,视频生成时间也没有超过30秒。

那与其他视频AI相比,Vidu的具体区别在哪里?

还是先得明确,Vidu现在可以说是一个真正开放给公众使用的模型,而不再仅存于一个概念或Demo。

这一点,从Vidu全面开放注册体验的举措中就可见一斑。用户无需申请,即可注册并体验到Vidu带来的视频生成技术的魅力。

不过,目前的Vidu还没有长视频生成能力。Vidu本身只提供4秒和8秒两种时长选择,以及最高1080P的分辨率。

做不了一段炫酷的宣传片,但要让一张搞怪的表情包活灵活现地动起来却不是什么难事。

当然了,可灵AI能生成的视频最长也才10秒

而且Vidu也不是完全免费使用,要想生成高质量的8秒视频也得开会员才行,这一点倒是与可灵近期的操作不谋而合,毕竟有收入才能接着进步,也能理解。

图片

图源:Vidu官网

对了,目前的Vidu是以全球开放的形式上线,所以支付方式偏向国际网站,这样一看最低7.99美金一月的Vidu会员同样只能生成几秒的视频,不知道大家觉得值不值?

二、Vidu好不好用一探便知

说得再多,吹得再天花乱坠,不自己试用一下都是空中楼阁。

那么,就让我们来一探究竟,看看Vidu究竟有哪些让人眼前一亮的功能和效果。

顺带着才上线的智谱清影与快手可灵一块玩玩,看看哪家更懂我们想要什么。

首先,先来感受下Vidu生成的视频画质到底如何。分别往Vidu、可灵AI、智谱清影中输入提示词:“末日画风,夕阳下的海滩,赤红的阳光洒在波光粼粼的海面上。”

值得一提的是,相较于可灵和智谱清影的创作工具,Vidu稍显稚嫩,对于运镜、创意能力等进阶参数设置主要还是得靠提示词实现,使用门槛相对高了一些。

但从生成的结果来看,Vidu的表现还是让人觉得有些意外。

图片

图源:Vidu

图片

图源:智谱清影

在预先的设想中,这段描述所该有的场景应与智谱清影生成的画面大致相同,但Vidu的视频反而更有意境一些,这很可能跟它训练多用的是电影素材有关。

而可灵AI生成的根本就是一张渐渐放大的图片,而且与描述的末日画风完全不符,看起来就像是度假中的随手一拍。

图片

图源:可灵AI

从画面质感来看,Vidu生成的视频清晰度还算满意,只是这色彩协调与描述中的“赤红”相差不少,色彩也不如其他两家鲜艳。

但要知道同样是几秒的视频,可灵AI生成的视频大小是6.13MB,智谱清影生成的大小为2.67MB,而Vidu生成的视频仅有759KB!

这样一看对于画面饱和度的不足是不是就能理解了一些,只要能符合需求,视频作品占的空间不是越小越好?

接下来再来进一步看看这些视频AI的理解能力到底如何。

虽然当我们在使用AI来做视频时需要把他们当作小孩一样事无巨细地进行描述,但这样无疑增加了使用的门槛。

若是直接能输入一段自己写好的脚本生成出来的视频和想象中拍出来的视频吻合,那岂不是人人都是脑洞大开的编剧?

说干就干,这回给AI稍微上点难度,输入提示词:“动漫电影风格,镜头缓缓拉远,一个刚经历过大战的机器人在花海中躺了下来。”

为了保证公平,这一次同样没有使用可灵和清影自带的进阶参数设置,只靠大模型自己对提示词的理解去完成视频的生成。

清影机器人-800.jpg

图源:智谱清影

图片

图源:Vidu

图片

图源:可灵AI

而这次的结果则是各有千秋,没有哪家完美达到了所有要求。

依次来看,里面唯一理解描述中的运镜方式的是智谱清影,但清影生成的那个机器人实在惨不忍睹,Vidu的机器人是三家里面最灵动的,但却根本看不出“刚经历过大战”。

反倒是第一场表现不佳的可灵AI生成的视频最接近提示词的描述,从机器人的外观到场景塑造都相当不错。

不过,没有使用它们自带的进阶参数调教也可能是其中一个影响因素,毕竟除了Vidu,其他两家针对运镜就有专门的设置,基本不可能在这里出问题。

相比之下Vidu显得更像传统的文本生成式大模型,需要用好提示词才能发挥出它的强大能力。

好在三种大模型的个性化定制服务,都可以让用户参与度大大提升。用户可以准确设置自己想要的视频参数,如光线角度速度等,甚至可以在视频中加入自己的元素,打造独一无二的视频作品。

这种个性化定制服务在短视频制作广告创意领域同样具有巨大的应用潜力。

想象一下,一个品牌可以根据自己的需求,快速生成一系列符合品牌形象的视频,不仅节省了成本,更提高了效率。

而对于短视频创作者来说,Vidu等网站也提供了一个展示创意和个性的平台,让他们的作品更加生动和有趣。

此次Vidu的上线,让市场上的这类产品变得更加多样,快手的可灵也因此多了一名强劲的竞争对手,从哪方面来看,都是件好事。

三、新兴赛道还是行业变革?

话又说回来,智谱清影、Vidu等相继问世,预示着新媒体行业的变革速度逐渐加快。

对于内容创作者而言,Vidu不仅仅是一个工具,更是一个能够激发创意提升工作效率的伙伴。

它通过简化视频制作流程,使得创作者能够将更多的精力投入到内容的构思与创新上,这就意味着未来的短视频等赛道,有创意才能更强大

然而,这种效率的提升也伴随着对产业的冲击,可能会对传统的视频制作行业造成一定的影响。

事实上,尽管Vidu等AI视频生成技术带来了许多便利,但它们也面临着不少挑战与局限性。

技术上,如何进一步提升视频的真实感、处理复杂的动态场景仍是难题。而伦理上,AI生成内容的版权问题真实度问题等,也引起了广泛讨论。

版权问题涉及到AI生成内容的原创性版权归属,而真实度问题则关乎到AI视频可能被用于误导公众的隐患。

这些问题的解决需要行业内部的共同努力,也需要法律法规的跟进与完善。未来的研究与规范制定应当着重于确保技术的健康发展,同时保护好社会公共利益。

我们期待这些技术能够在未来带来更多积极的社会影响,为人类的生活增添更多色彩。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
8月6日消息,腾讯2025校园招聘正式启动,继2024年实习生招聘、“青云计划”AI大模型招聘专项后再次发出“扩招”信号:不仅招聘规模相较前两年有较大增长,面向人群的毕业时间范围也进一步扩大。
2月25日消息,阿里巴巴年初至今股价累升65%,摩根士丹利最新研究报告称,承认低估了人工智能(AI)推升阿里云计算的需求和主业淘宝天猫业务的韧力,对此“认错”。大摩认为,阿里巴巴云智能业务未来三年收入将倍增, 大幅上调阿里巴巴ADR目标价80美元180美元,评级由“与大市同步”升至“增持”。大摩更指,在乐观情景之中,单计阿里云已值每股100美元,阿里巴巴集团每股估值更达300美元。以阿里巴巴港股股价计,大摩最新予的基本目标价约相当于174.9港元,上限估值更达每股291.5港元。
数字外贸平台阿里巴巴国际站的AI产品在全球火了。
这项AI工具可帮助客户轻松找到家装灵感,打造个性化的家居购物体验。
敦煌网AI智能助理上线
8月15日消息,敦煌网推出Aishipgo提供的AI智能助理。通过AI助理能帮助商家轻松创建高质量、富有创意且针对性强的商品描述,帮助商家节省时间和精力,更专注于店铺运营的其他重要环节。
赵雪洁指出,目前AI的流式对话体验已经能够像人与人之间的交流那样轻松、自然而高效。她详述了AI引流链路整个过程当中的三个核心环节:建立信任、利益点吸引、承接链路,并表示其中任何一个环节都会对获客成本产生影响。百应是一家估值30亿的准独角兽企业,专注于打造企业级数字化劳动力,成立5年时间,百应AI数字员工已累计为全球42000家企业级客户创造增长价值。
11月13日消息,JoyBuilder是京东云推出的AI原生应用开发平台,通过将AI能力融入到低代码平台中,让产研团队可以更加轻松、便捷开发AI原生应用,平台内置100多个开箱即用前端模板和组件,整体研发效率提升约40%。通过JoyBuilder搭建出的应用,天然具备智能填单、智能分析等原生AI能力,使企业能够更灵活应对业务需求。目前,JoyBuilder已在金融、保险、电商、教育、法律、地产等多个行业积累了丰富的经验,形成了30多个案例模板。
吴泳铭表示,阿里始终将提升平台治理能力,积极履行社会责任,努力打造清朗、健康、有序的网络空间作为责任与义务。
7月10日消息,海程邦达于2024年7月5日推出LLM人工智能应用——“空运产品助理”。用户只需轻松发起对话,即可秒获所需信息,内容涵盖区域、产品类型、起运港、目的港、目的国家、航空公司、航班号、班期、起飞时间、到达时间、机型及联系人信息等多维度数据。
12月12日消息,eBay推出AI新功能,以帮助卖家创建高质量的物品刊登,充分展示卖家物品。卖家只需点击按钮,AI工具生成的物品描述将向卖家建议吸引眼球的物品描述,帮助节省卖家时间,比以往更快速创建物品刊登并上线。卖家可以按原样使用建议的物品描述,也可以轻松对其进行自定义,添加更多详情、进行调整以确保准确性或者体现卖家企业的独特形象。现在,卖家可以在整个eBay平台上访问此功能。