DeepSeek、阿里接连打出王炸,AI行业彻底变天了
敢开源才是真的OpenAI!
一、阿里云开源最强视频大模型
本周,AI领域的开源风暴正在愈演愈烈,很快也许就会席卷到我们每一个人。
2月24日周一,DeepSeek宣布启动“开源周”,计划连续在五天内每天开源一个重磅项目。
在此背景下,阿里云悄然发力,就在昨夜突然宣布开源自家最强视频大模型——万相2.1(Wan)。

图源:阿里云技术人员开源当晚直播
作为开源老兵,阿里云再次通过开源的方式展现自己的无私以及对自家大模型技术实力的自信。
在AI技术飞速发展的当下,开源已经成为推动技术进步和生态建设的重要力量。
此次阿里开源万相2.1,采用的是Apache 2.0协议,该协议为全球开发者提供了极大的自由度,无论是商业应用还是学术研究,都能在合规的前提下自由使用该模型。
而对开源的万相2.1本身而言,其不仅支持文生视频和图生视频任务,还提供了14B和1.3B两个参数规格的全部推理代码和权重。
这意味着无论是追求极致效果的专业人士,还是希望快速部署的普通用户,都能找到适合自己的解决方案。
目前,全球开发者已经可以在GitHub(https://github.com/Wan-Video/Wan2.1)、HuggingFace(https://huggingface.co/spaces/Wan-AI/Wan2.1)和魔搭社区(https://modelscope.cn/studios/Wan-AI/Wan-2.1)上下载体验这一模型。
所以,号称阿里云最强的万相2.1到底强大在哪?
首先,从数据来看,14B版本的万相2.1在指令遵循、复杂运动生成、物理建模和文字视频生成等方面表现都十分出色。
在权威评测集VBench中,以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外知名模型,系该领域的佼佼者。

图源:鞭牛士
而1.3B版本则在性能和效率之间找到了完美的平衡,不仅超过了更大尺寸的开源模型,甚至与一些闭源模型的表现不相上下。
更令咱们普通人感到惊喜的是,万相2.1对设备兼容十分友好,支持消费级GPU。
据了解,13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU。
这意味着普通用户也能在消费级显卡上轻松运行该模型,极大地降低了使用门槛。
据媒体评测,该模型在RTX 4090显卡上生成5秒480P视频(未使用量化等优化技术)大约需要4分钟。
此外,万相2.1同时支持文生视频、图生视频、视频编辑、文生图、视频生音频和视觉文本生成。
并且,万相2.1还是首个能够生成中英文文本的视频模型,无需外部插件就能在视频中生成想要的文字。

图源:阿里云官方演示
多家媒体对万相2.1及其生成视频能力给予了高度评价:万相2.1不仅能够生成高质量的视频,还能在视频中融入复杂的运动和物理效果。
例如,在官方公开的一个Demo,墨水在红色宣纸上晕染开来,最终形成一个“福”字,笔画边缘自然模糊,东方韵味十足。

图源:阿里云官方演示
昨天,阿里旗下的AIGC通义千问也发布了全新的“Thinking (QwQ)”深度思考模型,支持深度思考和联网搜索。
据悉,该模型基于QWEN2.5-MAX,而官方版QWQ-MAX即将发布,并将同样采用Apache 2.0许可协议开源。
由此可见,即使DeepSeek的爆火给整个行业带来了不小的压力,阿里云仍然拥有着更进一步的信心和胆量。
万相2.1等模型的开源,将为开发者带来更多的可能性,也为AI视频生成领域的发展注入新的活力。
二、DeepSeek震撼全网的开源周
当阿里云以开源的姿态向世界展示其强大的视频生成大模型万相2.1时,全球的目光也聚焦在了另一股开源力量——DeepSeek。
如果说阿里云的开源是一场技术盛宴,那么DeepSeek的开源周则如同一颗震撼弹,直接在国际舞台上掀起了滔天巨浪。
与阿里云的坚定开源不同,DeepSeek开源周的种种项目,让外网的多方人士感到震撼,仿佛一夜之间,属于真正“OpenAI”的格局被彻底改写。
今天已经是DeepSeek的开源周的第三天,在此之前,DeepSeek已经公开了2个令人瞩目的技术成果。
第一天,DeepSeek开源了FlashMLA代码库,这是针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计。
传统解码方法在处理不同长度的序列时,常常会导致GPU的并行计算能力被浪费,而FlashMLA通过动态调度和内存优化,让Hopper GPU的算力被“榨干”,吞吐量显著提升。

图源:X平台
简单来说,FlashMLA可以让大模型在专业GPU上跑得更快、效率更高,尤其适用于高性能AI任务。
这意味着企业可以用更少的GPU服务器完成同样的任务,直接降低了推理成本。
对于开发者来说,FlashMLA的开源不仅打破了算力垄断,更降低了技术门槛,让他们能够免费获得“工业级优化方案”,推动更多创新应用的诞生。
第一天,DeepSeek开源了DeepEP通信库,这是首个用于MoE模型训练和推理的开源EP通信库。
它支持高效的全员沟通,无论是节点内还是节点间,都支持NVLink和RDMA,确保数据传输的高效性。
同时,DeepEP还具备训练及推理预填充阶段的高吞吐量计算核心,以及推理解码阶段的低延迟计算核心。
这些特性使得DeepEP能够轻松应对大规模MoE模型的训练和推理任务,极大地提升了模型的性能和效率。
此外,DeepEP还原生支持FP8数据分发,灵活控制GPU资源,实现计算与通信的高效重叠。
据了解,DeepEP在开源后迅速获得了全球开发者的关注和认可,其GitHub上的Star量在3小时内就突破了1000。

图源:GitHub
到了今日(第三天),DeepSeek再次祭出了杀手锏——DeepGEMM。
这是DeepSeek能够训练出V3/R1的核心动力所在,能在大规模模型训练和推理中,显著提升计算效率,特别适用于需要高效计算资源的场景。
并且,DeepGEMM的核心逻辑仅约300行代码,却实现了高达1350+FP8 TFLOPS的性能,这一性能表现彻底折服了不少老外。
可以说,DeepGEMM开源项目的出现,让更多开发者能够体会到“超级计算机”一般的高效计算,推动了深度学习领域的技术进步。
这一波接一波的冲击,让外网直接将DeepSeek誉为“真正的OpenAI”,人们感慨于DeepSeek的技术实力和慷慨大方。
三、“开源”值得更多感谢
那么,有的朋友可能会问,我知道开源很伟大,知道做出这些的企业很无私,但他们的开源,究竟与我们普通人有什么关系?
事实上,开源的意义远不止于技术层面的突破。
开源的最大意义在于它可以推动企业打破了技术的高墙,让普通人也能享受到AI带来的种种好处。
正如当下无论是大型企业还是小型创业公司,都在积极接入DeepSeek等开源模型,将其融入到工作和生活的方方面面。
从智能客服到创意设计,从医疗影像分析到教育辅助工具,AI正在以前所未有的速度渗透到每一个角落。
而且开源的意义不仅限于此。
现如今,在全球范围内,AI行业正迎来一场前所未有的“军备竞赛”。
这场竞赛不仅囊括了像阿里云、DeepSeek这样的开源先锋,也包括像OpenAI和Meta这样的国际巨头。
前段时间,OpenAI宣布部分模型免费开放。
紧接着,Anthropic也在近日对其大模型进行了升级换代,推出了号称“迄今为止最聪明”的Claude 3.7 Sonnet,仅部分功能不支持免费使用。
这些变化正是开源在与闭源的较量胜出,推动了整个行业加速前进。
这种“开源福利”不仅在国内引发了热潮,更辐射到了全球。
DeepSeek的开源周和阿里云的开源行动,不仅为国内开发者提供了宝贵的技术资源,也让全球AI行业看到了开源的力量。
如今,开源模型不仅在性能上不逊色于闭源模型,更在灵活性和可扩展性上展现出独特的优势。
开源的力量正在全球范围内汇聚,形成一股不可阻挡的潮流。
只能说,仅通过这半个月以来AI行业的各种变化来看,谁还能再云淡风轻地说出那句“开源模型会越来越落后”。
开源,正在以一种前所未有的速度改变世界。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
