对标Sora,清华搞的视频AI来了
又是一种新的感觉。
一、快手可灵不再独步武林
2022年ChatGPT的崛起点燃了国内外各大企业对AI大模型的热情,这把火燃到现在从文字大模型到图片大模型,终于也点燃到了视频大模型。
恰好近期,国内的视频AI大模型一个个正式浮出水面,没成想作为先行者的Sora还未正式开发出实用产品,这些个“国产Sora”反而先斗了起来。
说到“国产Sora”,今年以来最威风的就是快手的可灵AI,从概念的发布到可灵AI的正式上线,相关的报道数不胜数。
这不,就在这几天,智谱上线了清影AI,今年4月小火一把的清华系视频大模型Vidu也正式上线。
Vidu是生数科技与清华大学联合研究的视频大模型,自诞生起对标的就是Sora大模型,同样也拥有文字生成视频和图片生成视频的功能。

图源:Vidu官网
清华大学作为国内顶尖的高等学府,在人工智能领域的研究一直处于领先地位,正因如此由清华团队一手打造的Vidu也身负着比快手可灵更重的期待。
此次Vidu的全球上线,不仅是国产视频大模型技术上的突破,更是对全球AI视频生成技术发展趋势的一次有力回应。
在全球范围内,AI视频生成技术正以惊人的速度发展,各大科技公司纷纷推出自己的视频生成模型,试图在这一新兴领域占据一席之地。
然而,大多数模型仍处于概念或测试阶段,真正能够面向公众开放使用的并不多见,恰好Vidu是后者,并且一上线面向的就是全球的用户。
实际上,相对于快手的可灵ai而言,Vidu的理论战力更接近Sora。
首先,Vidu的工作原理基于一种融合了Diffusion和Transformer的U-ViT架构,这一架构由生数科技早在2022年9月提出,比Sora的DiT架构更早。
这种架构的优势在于其能够更好地模拟真实世界的物理原理,同时保持视频中主体的一致性,也是早前Vidu宣称对标Sora的底气所在。
其次,Vidu在创新上也毫不逊色。它不仅支持文生视频、图生视频两大功能,还能在极短的时间内生成高质量的视频内容。
根据官方自己的宣传,只需3次眨眼的时间,就能生成一段4秒的视频。

图源:Vidu官网
而根据实测下来的结果,发现哪怕是用CPU核显,视频生成时间也没有超过30秒。
那与其他视频AI相比,Vidu的具体区别在哪里?
还是先得明确,Vidu现在可以说是一个真正开放给公众使用的模型,而不再仅存于一个概念或Demo。
这一点,从Vidu全面开放注册体验的举措中就可见一斑。用户无需申请,即可注册并体验到Vidu带来的视频生成技术的魅力。
不过,目前的Vidu还没有长视频生成能力。Vidu本身只提供4秒和8秒两种时长选择,以及最高1080P的分辨率。
做不了一段炫酷的宣传片,但要让一张搞怪的表情包活灵活现地动起来却不是什么难事。
当然了,可灵AI能生成的视频最长也才10秒。
而且Vidu也不是完全免费使用,要想生成高质量的8秒视频也得开会员才行,这一点倒是与可灵近期的操作不谋而合,毕竟有收入才能接着进步,也能理解。

图源:Vidu官网
对了,目前的Vidu是以全球开放的形式上线,所以支付方式偏向国际网站,这样一看最低7.99美金一月的Vidu会员同样只能生成几秒的视频,不知道大家觉得值不值?
二、Vidu好不好用一探便知
说得再多,吹得再天花乱坠,不自己试用一下都是空中楼阁。
那么,就让我们来一探究竟,看看Vidu究竟有哪些让人眼前一亮的功能和效果。
顺带着才上线的智谱清影与快手可灵一块玩玩,看看哪家更懂我们想要什么。
首先,先来感受下Vidu生成的视频画质到底如何。分别往Vidu、可灵AI、智谱清影中输入提示词:“末日画风,夕阳下的海滩,赤红的阳光洒在波光粼粼的海面上。”
值得一提的是,相较于可灵和智谱清影的创作工具,Vidu稍显稚嫩,对于运镜、创意能力等进阶参数设置主要还是得靠提示词实现,使用门槛相对高了一些。
但从生成的结果来看,Vidu的表现还是让人觉得有些意外。

图源:Vidu

图源:智谱清影
在预先的设想中,这段描述所该有的场景应与智谱清影生成的画面大致相同,但Vidu的视频反而更有意境一些,这很可能跟它训练多用的是电影素材有关。
而可灵AI生成的根本就是一张渐渐放大的图片,而且与描述的末日画风完全不符,看起来就像是度假中的随手一拍。

图源:可灵AI
从画面质感来看,Vidu生成的视频清晰度还算满意,只是这色彩协调与描述中的“赤红”相差不少,色彩也不如其他两家鲜艳。
但要知道同样是几秒的视频,可灵AI生成的视频大小是6.13MB,智谱清影生成的大小为2.67MB,而Vidu生成的视频仅有759KB!
这样一看对于画面饱和度的不足是不是就能理解了一些,只要能符合需求,视频作品占的空间不是越小越好?
接下来再来进一步看看这些视频AI的理解能力到底如何。
虽然当我们在使用AI来做视频时需要把他们当作小孩一样事无巨细地进行描述,但这样无疑增加了使用的门槛。
若是直接能输入一段自己写好的脚本生成出来的视频和想象中拍出来的视频吻合,那岂不是人人都是脑洞大开的编剧?
说干就干,这回给AI稍微上点难度,输入提示词:“动漫电影风格,镜头缓缓拉远,一个刚经历过大战的机器人在花海中躺了下来。”
为了保证公平,这一次同样没有使用可灵和清影自带的进阶参数设置,只靠大模型自己对提示词的理解去完成视频的生成。

图源:智谱清影

图源:Vidu

图源:可灵AI
而这次的结果则是各有千秋,没有哪家完美达到了所有要求。
依次来看,里面唯一理解描述中的运镜方式的是智谱清影,但清影生成的那个机器人实在惨不忍睹,Vidu的机器人是三家里面最灵动的,但却根本看不出“刚经历过大战”。
反倒是第一场表现不佳的可灵AI生成的视频最接近提示词的描述,从机器人的外观到场景塑造都相当不错。
不过,没有使用它们自带的进阶参数调教也可能是其中一个影响因素,毕竟除了Vidu,其他两家针对运镜就有专门的设置,基本不可能在这里出问题。
相比之下Vidu显得更像传统的文本生成式大模型,需要用好提示词才能发挥出它的强大能力。
好在三种大模型的个性化定制服务,都可以让用户参与度大大提升。用户可以准确设置自己想要的视频参数,如光线、角度、速度等,甚至可以在视频中加入自己的元素,打造独一无二的视频作品。
这种个性化定制服务在短视频制作和广告创意领域同样具有巨大的应用潜力。
想象一下,一个品牌可以根据自己的需求,快速生成一系列符合品牌形象的视频,不仅节省了成本,更提高了效率。
而对于短视频创作者来说,Vidu等网站也提供了一个展示创意和个性的平台,让他们的作品更加生动和有趣。
此次Vidu的上线,让市场上的这类产品变得更加多样,快手的可灵也因此多了一名强劲的竞争对手,从哪方面来看,都是件好事。
三、新兴赛道还是行业变革?
话又说回来,智谱清影、Vidu等相继问世,预示着新媒体行业的变革速度逐渐加快。
对于内容创作者而言,Vidu不仅仅是一个工具,更是一个能够激发创意、提升工作效率的伙伴。
它通过简化视频制作流程,使得创作者能够将更多的精力投入到内容的构思与创新上,这就意味着未来的短视频等赛道,有创意才能更强大。
然而,这种效率的提升也伴随着对产业的冲击,可能会对传统的视频制作行业造成一定的影响。
事实上,尽管Vidu等AI视频生成技术带来了许多便利,但它们也面临着不少挑战与局限性。
技术上,如何进一步提升视频的真实感、处理复杂的动态场景仍是难题。而伦理上,AI生成内容的版权问题、真实度问题等,也引起了广泛讨论。
版权问题涉及到AI生成内容的原创性和版权归属,而真实度问题则关乎到AI视频可能被用于误导公众的隐患。
这些问题的解决需要行业内部的共同努力,也需要法律法规的跟进与完善。未来的研究与规范制定应当着重于确保技术的健康发展,同时保护好社会公共利益。
我们期待这些技术能够在未来带来更多积极的社会影响,为人类的生活增添更多色彩。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
