阿里云创始人王坚:Sora的意义不止在影响短视频等行业

周兴
2024-03-12 05:30

3月12日消息,阿里云创始人王坚在近日接受南方都市报的采访。在对话中,他针对今年备受关注的Sora模型、大模型商业化等问题发表看法。王坚表示,当前国产大模型和GPT-4及其下一代技术的差距仍然很大,建议通过开源方式,依靠技术社区的力量找到发展路径,由市场来检验其水平。

此外,王坚认为,Sora问世的意义极大,远不止会对短视频、影视等行业带来冲击,它解决了非常复杂的一件事——视觉问题,甚至直言“如果能创造视频,它也就能创造世界。”

format-jpg

阿里云创始人王坚 图源:阿里云视频号

以下为对话内容:

南都:2024年被认为是AI大模型应用的浪潮年。在大模型产品的商业化或市场化方面,有哪些思考可以分享?

王坚:在我看来,商业化和市场化不完全是一个意思。商业化是要一手交钱一手交货的,而市场化的重点在于要产生市场价值。以搜索这一服务项目为例,它的用户量巨大,可以算作已经“市场化”了。不过,从来没有人为使用搜索服务付钱,而是为搜索页面上的广告付费。所以从这个角度讲,搜索本身并没有实现商业化,但是它完成了市场化,有人便进而想出加广告的模式对其进行商业化。我认为,市场化是商业化的基础,商业化是市场价值的重要体现。

南都:那你认为目前大模型的商业化之路进展如何?

王坚:当今全球范围里,所谓的大模型商业化还是在探索过程中。不过,目前事实已经证明,它有用户基础,也就是可以“市场化”的,那就有可能产生商业价值——这一点其实很重要,一个产品如果没有用户基础,就算实现商业化了,也是小本生意。对于一场技术革命来说,它不可能以小本生意为目标,肯定能产生更广泛的影响。整体来讲,我认为当前的大模型还处于市场价值大于商业价值的阶段。

南都:这个发展的过程你觉得会慢还是快?

王坚:那就得看你技术力量有多强、算力支撑有多大、投资有多少了,这些要素缺一不可,甚至没有办法讲其中哪个因素是核心的。当你缺哪个要素的时候,哪个要素就是最重要的。现在国内200多个大模型我觉得没有问题,大家都在一点点往上爬完成必不可少的技术积累,但肯定不是最后200个都能爬上来了,大部分中间被淘汰掉了,但总之该活的一定会活下来的。短期来看,我认为现在整个发展过程还和市场没有直接的关系,因为这个领域的天花板还远远没有碰到。大家现在已经在讲万亿参数的模型了,行业都觉得很兴奋,你可以想想从一个模型的参数从数10亿到万亿的差别。因此,这个赛道在国内外都还远没有到需要收敛的程度,OpenAI那么出名,但仍然会有它的挑战者出现,大家仍然在做不同的有创造性的探索。

南都:你刚才也提到,我国10亿参数规模以上的大模型已超过200个,怎么看待这场“百模大战”?

王坚:10亿参数其实不是一个大数字,目前我们主要讲的都是百亿级的。不过大小也都是相对的,就像刚改革开放时“万元户”意味着富裕,现在肯定不算了。这种参数规模和事物的发展周期有关系。再说到200多个的数量,我觉得这不算多,为什么——你不可能一夜暴富,凭空就做出500亿参数的大模型吧?人的钱是要一分一分挣的,要把一个大模型建好,也是要一点一点积累经验的。

南都:我们也注意到,追赶OpenAI,对标ChatGPT似乎是过去一年里国内很多AI公司的最大命题。

王坚:我觉得不能简单地说对标ChatGPT。ChatGPT、GPT-4二者,我们要把它们区分开来——前者其实是在后者基础上延伸出来的一个应用,因此真正衡量基础模型的能力应该去对标GPT-4。值得注意的是,GPT-4和GPT-3有一个非常大的不同,GPT-3是全开放的,大家都知道它是怎么做的,以及能做到什么程度,但到了GPT-4就不开放了,所以当前不太好谈对标的问题。就像你高考一样,高考成绩好不见得你这个人好,但你成绩不好又读不了大学。所以在短时期内衡量谁好谁坏是不公平的,还是要从长远角度由市场来说明问题。可能有观点认为,国产大模型的水平已经接近GPT-4或者差一点点,但其实肯定不是差一点点,是差很多的。我想更好的办法是由市场来证明大模型的能力,比如把模型开源出去,放到国际上去,让市场去检验产品。

南都:当下全球AI竞争不断升温,你认为在技术迭代或人才储备等方面,中美两个“头号”玩家存在哪些差距?

王坚:具体来讲,我个人认为我们头部的聚集还不够。现在美国还是有很明显的大模型玩家的,而在中国并不明显。所以最大的变量是我们这200个10亿参数的大模型,什么时候能变成20个2000亿的模型。在这个过程中,底层技术的演进迭代、资金投入都是非常重要的事。

南都:有观点认为,不同国家地区在大模型或AI方面的资金投入规模也差距巨大。

王坚:对这个观点我要提出质疑。大模型和以前创业不太一样,从前创业公司可以用很小的资本很快完成一次创业,但大模型出来以后,算力投入就变成了一个极其“烧钱”的东西,到底用多少算力花多少钱,也变成了一个大家不愿意公开谈及的事情。我想今天没有任何一个人可以把具体投入的资金统计完整,至少我在业内没有看到过什么非常自信的总结。

南都:所以简单来说,就是我们真正意义上的技术优势可能还没有形成?

王坚:也不见得没有形成优势,这个问题涉及很多不同因素,包括产业、商业策略、合作情况等等,这些问题也不是单一的投入可以解决的。从宏观来看,国家地区之间的竞争其实是综合科技实力的竞争,而非单项技术的竞争。至于“综合”到什么程度?比如算力、AI、工程能力、理论研究等等,都会有所涉及。像谷歌的Gemini模型,官方发布了一篇白皮书,里面有名有姓分工署名的人就有接近800人,所以这种综合因素的影响其实是很复杂的。这不是一个简单的回答可以概括的,不是因为这件事情本身复杂,而是它太动态了。ChatGPT也好,GPT-4也好,AI技术也好,它们就好像处于小孩快速长身体的阶段,我们是没有办法对处于高速发展态势下的事物做一个对比判断的。当然,如果从现阶段来看,也不需要我说太多——大家都知道我们并没有太多的领先优势,但同时我们也有领先的可能。另外,我想补充的是,很多观点都在说“现在人工智能全球只剩下中美两个玩家”了,但事实上ChatGPT出来之后大约一年,欧洲又有一家名叫Mistral AI的初创公司异军突起,其大模型技术也很突出。因此,全国只剩中美两个“头号玩家”的观点其实不是那么准确。


南都:上个月OpenAI又发布了视频合成模型Sora,有观点认为它可能会引发短视频、广告、游戏等行业格局的重塑。你怎么看?

王坚:如果谈到Sora,只说它可能会影响短视频等行业,那我觉得是对它极大的羞辱,它的意义远超这种事情。就像是原子弹刚刚爆炸时一样,没有人能想到这个东西后来可以作为核电站来发电,还可以实现小型化,还有很多别的用处。如果只是把原子能技术当作原子弹用,那就是大大低估了这个技术的重要性。值得关注的是,Sora事实在解决世界上最复杂的一件事——真实世界的视觉问题,视频是它的表现手段。它真正的意义在于靠技术已经能够生成像这个自然界一样复杂,有细节的视频或者图像。如果能创造视频,它也就能创造世界。

南都:那这种超强的伪造能力会不会引发大家对于虚假信息的一些担忧?

王坚:其实“伪造”这个词不对。什么叫伪造?你拿了一个假的东西告诉别人这是真的,这就叫伪造,而通过技术生成一段逼真的视频,如果符合真实世界的规律,它就不是伪造。我们也不说技术是不是中立的,只是说技术有了这样一种能力,只有用这种技术能力去行骗,才是真正的造假。而现在我们面临的主要问题是,技术到了这个程度,却不知道拿它来干什么。


南都:在高算力需求的大模型时代,怎么看待云计算?

王坚:我们在AI时代常说使用几万张显卡训练一个大模型,当有这么大规模的时候,其实就是云计算,只不过是看你这个云计算是想做一个有体系的、可以真正提供大规模服务的,还是自己搞搞。就在月初,美国商务部也表示不允许中国的企业用美国的云服务做大模型训练,种种情况都说明云计算服务在AI时代,或者说大模型在AI时代就是非常重要的。

南都:那么云计算是否有望解决当前的算力困境?

王坚:这其实是个很复杂的事情。GPT-3时期的时候OpenAI公布说,大概用了1万块英伟达A100(一种AI芯片)进行训练。但像亚马逊这样的云服务运营商,除了A100还用了H800的卡,总共大概有3000E(1E约等于1000PFlops-day)的算力。在过去的三个月里,按照官方的预测,每个季度会增加1000E的算力。与我们现有的算力对比一下,GPU的大规模使用,让云计算提供的算力会有百万倍的增长。到了GPT-4,就已经不公开其所需的算力了。不过,行业里大家都会有一个共识,就是只要做到这个规模就能猜出个大概。比如通义千问开源的是720亿参数的模型,那大家就都能猜到这背后有多少算力在支撑。


南都:2024年是我国正式全功能接入国际互联网30周年。回顾这段时间,你觉得有哪些重要的节点值得记录?

王坚:我们今天所有看到的东西都是互联网发展的结果。我举个最简单的例子——数据。你试想一下,没有今天的互联网,我们会不会产生那么庞大的数据?不会的。二三十年前很多人说,互联网是一台巨型计算机,第一代互联网把所有PC连在一起,第二代互联网则是把手机联系在一起,那如今就是人工智能把所有的数据联系在一起。所以我觉得互联网在整个社会发展过程中起着一个主轴作用,看似太过基础,好像可以忽略不计,但你把它抽掉,整体也就坍塌了。

1、该内容为作者独立观点,不代表电商报观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
3月17日消息,据中国财经消息,日前,阿里健康董事长CEO朱顺炎在接受采访时表示,互联网医疗的价值可以形象地归纳为“三朵”:医院、药房、服务,帮助解决基层医疗的痛点。据介绍,医院包括智能导诊、远程问诊、用药指导、健康科普等全方位的医疗服务,让基层患者实现“一部手机管健康”,同时也帮助医生高效地管理和服务患者。服务则把慢病管理等一系列院外服务搬到上,极大地丰富了用户的健康方案。
10月31日消息,在2023栖大会,中国工程院院士、阿里创始人以《计算的第三次浪潮》为主题发表演讲,他认为人工智能和计算的结合,带来计算的第三次浪潮,它不会在一年、两年完成,它可能会给我们十年、几十年的时间,让足够多的创新,在计算时代能够发明出来。
9月5日消息,2024 Inclusion·外滩大会今日在上海开幕。在开幕式主论坛上,中国工程院院士、阿里创始人分享了他对于AI、AI+和AI基础设施的思考。他指出,AI+不是AI和产业的简单结合,而是数据、模型和算力的组合,计算就是AI时代的基础设施。
7月4日消息,中国工程院院士,之江实验室主任,阿里创始人在2024世界人工智能大会上表示,事实上,GPT的潜力今天还没有被完整地探索,相信下面十年会是一个非常激动人心的十年。
在2023栖大会,阿里创始人以《计算的第三次浪潮》为主题发表演讲。
在近日举办的2023中国计算机大会(CNCC2023)上,阿里创始人发言指出,当前我们所提倡的绿色、可持续发展理念,实现的挑战是超出大多数人想象的。
10月26日消息,CNCC2023上,中国工程院院士、之江实验室主任、阿里创始人发言指出,当前我们所提倡的绿色、可持续发展理念,实现的挑战是超出大多数人想象的。指出,在一个城市里面,有30%以上的水是被漏掉的,但这个问题并没有随着信息化技术的发展而被解决掉,这是一个非常惊人的资源浪费。即使到2030年,这样的被浪费的水还会在20%左右。
表示,人工智能和计算的关系,就像电视和电的关系,“特别对像ChatGPT这样的技术,计算就是关键”。