阿里云周靖人：AI时代，云计算要服务不同开发者和客户群体

11月1日消息，阿里日前举办了以“计算，为了无法计算的价值”为主题的2023云栖大会。会上，阿里云CTO周靖人表示，面向智能时代，阿里云将通过从底层算力到AI平台再到模型服务的全栈技术创新，升级云计算体系，打造一朵AI时代最开放的云。

在现场，周靖人公布了云计算基础能力的最新进展，升级了人工智能平台，并发布千亿级参数规模的大模型通义千问2.0，以及一站式模型应用开发平台阿里云百炼，阿里云已初步建成AI时代全栈的云计算体系。“目前，中国有一半大模型企业跑在阿里云上，280万AI开发者活跃在阿里云魔搭社区上，未来，阿里云将携手千行百业推动AI创新，共享技术红利。”

《晚点LatePost》在本次云栖大会前对话周靖人，他谈了阿里云如何看待AI带来的云计算新机会，他们计划如何搭建新环境下的计算基础设施，以及在这次技术变革中的转型，到底会如何改变阿里云。

format-jpg

阿里云CTO周靖人

图源阿里云公众号

《晚点》：现在已有不少中国大模型公司是你们的客户，如智谱AI和百川智能等。但阿里云自己也更新了通义2.0大模型，并发布了一系列基于通义的行业应用模型。为什么你们一边想做基础设施，一边又在自己做模型？

周靖人：我们云上有各种客户，表面看起来我们这也做、那也做，但这都对应着AI时代，云计算要服务的不同开发者和客户群体。

有一类客户，像你讲的百川，自己能开发通用模型，他需要的是AI基础设施；还有客户，他不见得要从头训练通用模型，但想结合行业知识训练模型，比如这次我们发布了一个工具“阿里云百炼”，它能基于通用模型，让客户方便地结合自身数据集产生专属大模型；还有人是想直接调用已有的模型。

而且我们做大模型不是为了做端到端的超级应用，这次发布的模型大部分不是完整产品，我们的目的是给大家展示和开放能力，欢迎客户通过API方式把它们放到自己的系统里，真正解决业务问题。我们的所有模型都欢迎“被集成”。

不仅是大模型，我们每一层能力，从训练模型的能力到微调、部署和调用的能力，都希望“被集成”。阿里云要给每一类开发者和客户都提供支持。

《晚点》：既做算力基础设施又做模型不会和客户冲突吗？

周靖人：这不是竞争生态，大家还是理念上没跨过这个坎。你看Snowflake、Databricks和MongoDB都是在云上发展起来的“云原生”企业（上述公司的业务都与数据分析或数据库有关），Databricks最大的用量就在AWS和微软Azure上，但不妨碍AWS和Azure也有自己的大数据与数据库产品。

在模型时代是一样的。云计算的生态不是onesizefitsall（一套产品满足所有客户需求），有你没我、有我没你。市场里有不同定位的产品才是一个健康生态。

《晚点》：为帮助构建这个生态，阿里云做了什么？

周靖人：我们是中国大公司里唯一开源自研大模型的，之前开源了70亿和140亿参数的通义大模型，11月还将开源720亿参数的版本。Meta开源的Llama2的最大版本是700亿，其实我们开源的模型在各种性能指标上都超过了Llama2，开发者里也有口碑。

另一件事是我们去年8月上线了模型社区ModelScope魔搭。短短一年多，魔搭已累积了上亿次模型下载量。这一定程度反映了我们的判断：更多开发者是希望把模型集成在自己的系统里。

这次我们还宣布了一个新计划“云工开物”，给每个想尝试AI前沿技术的高校学生提供全年300元的阿里云产品免费额度，这相当于给每个学生配备了一台云服务器。我们还给学生提供全线产品的三折优惠，上限是5000元人民币，一些产品甚至低于成本价。对高校老师我们也有计划，让他们科研使用的部分能享受5折优惠。

云工开物不限制学生名额，只要你是学信网注册学生，大学生、大专生都可以申请。全国有四千多万注册学生，我们估计其中有1/5到1/4有需求。

这是阿里云有史以来的最大投入力度之一。我们希望有需要的开发者、学生、研究机构、创业公司和ISV（独立软件开发商）都能有效把模型集成到自己的环境里，一起推动AI产业发展。

《晚点》：阿里云做大模型和AI基础设施的想法是怎么形成的？你们2022年第一次对外提MaaS，同时整合了过去的模型并开始建设模型社区，为什么在当时有这些动作？

周靖人：我们最开始在2022年提MaaS时，包括做魔搭，大家可能没那么关注和理解，觉得这只是一个another term。今年我们看到越来越多友商也在跟进。

其实到今天，全社会更多关注的还是大模型发布，大家不太注意的一点是：这背后是整个云系统的升级，是技术体系的竞争。

我们最开始做大模型时想用更多机器，把几百台服务器连起来。想法很好，系统做不了，你会发现各种问题：分布式编译、系统稳定性、网络拥塞等等。

幸运的是，这个过程中，云技术团队和模型团队一直紧密配合，遇到问题时云团队就去优化，优化一点，大模型就发展一点，模型发展到一定程度又遇到挑战，又需要云去升级，是交替往前走的过程。

所以在这次AI变革中，AI和云是不可分割的整体。模型是对数据，甚至对算力的进一步抽象，它要求对算力体系做一系列重构和创新。这点全球都一样，OpenAI融了这么多资，它还是要与微软Azure密合作，这是因为AI进化离不开云的支撑，它们是一个问题的上下部分。

阿里云过去积累了这么多年云计算技术，现在是well positioned（处在好的位置），刚好能做好AI基础设施，支持上面更大、更繁荣的生态。

《晚点》：为什么这个基础设施是由云厂商提供？企业也可以买很多GPU和服务器，自己搞一个数据中心。

周靖人：很多人有一个误解，觉得只要有很多GPU，就可以堆起来训练大模型，实际上这样做不成任务。你需要把成千上万个GPU连起来，像一台超级计算机那样工作，这是个非常复杂的分布式系统。

这涉及芯片的选择和适配、服务器设计、数据中心的分布式框架设计，还有网络设计：一个高效网络有规模限制，有hierarchical（按等级划分的）的网络架构，还要解决拥塞和稳定问题。网络之后还有存储，因为训练模型要清洗大量数据，过程中还要读取大量数据。

同时，当我们有了这么大规模的分布式系统，计算节点出故障是必然的，就要有容错功能。过去我们也跑坏了不少GPU，发现了一些bug，比如它的温度控制比较难。现在训练大模型短则几周，长则几个月，不能因为某个机器出问题，所有工作都重跑。

我们现在可以做到，即使某些计算模块出故障，仍然能实时调整，支持模型继续训练，我们也有一套在不同时间点做checkpoint的机制，这让我们的系统能支持10万卡级的GPU一起做训练。

这些能力都是需要长时间积累的、有挑战的技术。我们从服务器设计到网络设计都是自研的，甚至很多网络协议都是自己开发的。最后能提供这个复杂分布式系统服务的人会非常少。

《晚点》：有一种观点认为，未来只会剩下少数几个通用大模型。如果模型集中度足够高，开发模型的公司自己建立这套计算能力长期看可能更经济。

周靖人：不管未来通用大模型的格局是否集中，明确的趋势是，推理（即使用大模型时的计算过程）对计算的需求会越来越大，远大于训练。

推理比训练更离不开云。一是推理需求遍布全国甚至全球各地，因为你的用户可能有的在杭州、有的在北京。这需要低延时，需要就近的数据中心支持。只有大型云厂商才能提供遍布各地的算力服务。二是推理有用量波动，有些应用是早上用户多，有些是晚上。也只有云厂商才能处理这种波峰波谷的弹性需求。所以考虑到推理场景，AI的发展就更和云密不可分了。

《晚点》：这些能力能被多快学习？在模型和算法层，很多开源项目和论文分享促进了技术扩散。

周靖人：每个云厂商做系统优化时都有一些独门绝技，这是每个公司的看家本领，是体现细致功底和见真章的地方，不经过长年累月的实践掌握不了。

比如网络结构设计就有很多课题：怎么用交换机？每一个交换机服务多少台服务器？每台服务器多少网卡？中间怎么连接？怎么解决数据延迟的损失？接下来还有怎么做执行：什么时候做模型并行？什么时候做数据并行？怎么让不同任务被分配、调度在不同模块上做联合训练？

要充分发挥GPU的能力，就是靠这些硬核的计算技术和经验。从去年提出MaaS后，我们就一直在围绕模型的整个生命周期重新设计云的技术体系，从最开始的数据收集、清洗，到模型的训练、验证、微调，最后到模型服务，涉及方方面面。这也是为什么现在客户在阿里云上训练大模型的整体效率会更高。

《晚点》：总结而言，阿里云要怎么做以适应AI新环境？你们这一年来发布了很多新产品和服务，为什么是这样的产品结构？

周靖人：我们认为MaaS的核心理念是，模型会成为人工智能时代一个重要的生产元素，整个计算体系会围绕模型重新升级。

阿里云要做的事有四层：

一是用AI升级既有云计算技术，把云更自动化地管理起来。过去云计算中的很多部署、运维、故障处理要靠人的经验，靠工程师轮班24小时盯着，现在要逐步换成AI，比如引擎参数的调整、内存管理、网络拥塞的解决，这些决策和流程都可以引入AI，实现autonomous cloud（自动的云）。

云里也要写很多脚本，我们这次发布的通义灵码就能帮云计算工程师写代码，提高开发效率。另外大语言模型也能帮云的运维人员更高效地查找文档、维护工单和响应客服。相当于用AI和大模型把云本身的开发和运维都优化一遍。

第二是，我们从IaaS层到PaaS层的每一个计算产品都会为AI升级。比如我们面对AI推出了弹性计算实例（“实例”是云计算中的管理单元，相当于一台虚拟机），开发了专门的存储产品；在网络上也做了大升级，实现了AI需要的低延时、高带宽网络。

第三层是做AI基础设施。阿里云有一个重要理念：数据中心就是一台计算机。这是指通过高效连结计算资源，让开发者感觉这就是一台机器，不用分心考虑底层问题，专注做应用开发。

这个理念在AI场景里更加重要，因为AI背后不单是CPU，而是有各种芯片的异构架构，有的算力强，有的还要提升，我们是通过云的能力和高效网络把这么大规模的不同计算单元连接起来，形成一个强大的计算引擎。

最后一层就是我们自己的系列模型。当然再说一次，我们做模型最重要的目标不是做终端应用，是要服务好开发者。

《晚点》：今年8月，阿里云组织了“西溪论道”，汇集了国内多个大模型公司和应用公司，包括智谱、百川、澜舟和妙鸭等等，他们提了什么需求和反馈？

周靖人：他们关心刚才我们讲的——AI基础设施能怎么帮他们更好地做模型和应用创新。当然，他们也在意价格。我们也会努力提供更好的性价比，很多时候性价比能反映技术实力。

《晚点》：阿里云的AI计算成本现在下降到什么程度了？

周靖人：降低整体成本和降低门槛相辅相成，一个是便宜，一个是容易，要一起说。

在降低门槛上，今年我们PaaS层几乎所有产品都提供了serverless（一种能按需弹性伸缩、按需付费的软件系统架构）方案，在AI算力上我们也推出了PAI灵骏智算serverless化服务，是国内第一个做到的厂商。

过去大家要选固定的硬件，自己做一些维护，而serverless方案能提供开箱即用的体验，开发者不需要关心背后的硬件资源。

今年还我们推出了阿里云容器服务ACS。之前我们更多不是容器，是虚拟机，它还是涉及要用什么CPU，什么内存等一些中间管理。

ACS现在支持所有主流语言，能让大家方便地编排业务体系，支持快速扩容和缩容，让客户能真正按需弹性使用资源。我们也提供了能一键式自动编排容器的工具（“ServerlessDevs”）并推出了流程式开发服务（云工作流“CloudFlow”）。这都能大幅降低客户开发人员的复杂性。

价格方面，serverless本身有很大价格优势，因为它是按需使用的，客户不需要提前购买资源做准备。我们也在不断推新产品，包括大数据、数据库都会推一些标准实例。其实从4月11日开始说降价后，我们一直在降价，调价频率呈上升趋势，不是一定要到大节点再说降价。

《晚点》：你认为做好AI基础设施会给阿里云带来哪些改变？比如公共云的业务占比会上升吗？或者对你们做政企业务有什么帮助吗？

周靖人：这次AI变革确实与公共云形态是有机融合的。首先模型训练需要大量算力，如果都分散建设会有浪费，公有云的弹性使用特点更能避免算力闲置。而且自己建数据中心，往往会遇到机房容量和供电等各种限制。

推理就更适合公有云。当进入大规模应用后，你需要使用全国乃至全球的算力，用量一天之内可能就有波峰波谷的变化，你也很难预估业务未来的增长，如果自建数据中心，高估或低估了业务需求都是问题，要么是买机器的速度赶不上发展，要么买太多都浪费了。大家必然会更依赖公有云。

至于具体行业的需求，我还没看到哪一个行业不会受这次AI变革的影响。政企领域也一样，我们已经看到了非常旺盛的需求。

《晚点》：这次AI变革的商业落地过程会像过去那样，被过高期待后又经历低谷吗？

周靖人：现在才刚开始，我们还没看到波峰。这次AI技术的变化不是解决了某个特定问题，而是通用AI的进步。

《晚点》：投资机构a16z曾估算，云计算公司最后会获得生成式人工智能行业10%-20%的收入，你怎么看云在AI时代的未来空间？

周靖人：很难预估，但我并不觉得这是无理之谈。我们拭目以待。

《晚点》：阿里云涉及复杂的技术体系，作为CTO，你一定要想明白的事情是什么？

周靖人：对技术趋势的思考，和做好对应趋势的整体设计。首先确保阿里云处于领先位置，同时追求引领一些技术发展。

《晚点》：大模型之后，还有哪些新技术会对云计算产生很大影响？

周靖人：AI本身还有很多工作，包括模型本身的进化，未来的多模态，如何能把模型应用起来。同时我们要关注云计算怎么支持行业，云计算本身怎么做转型以适应这次巨变。

过去十几年，无论是ImageNet还是AlphaGo都没办法与这次相比，这也许是一生中少有的计算技术革命。