快手刘凌志:大模型在音视频上的应用更加复杂
8月26日消息,2023浪潮信息新产品“互联网+AIGC”行业巡展暨大模型智算软件栈OGAI发布会于8月24日在北京举办。作为浪潮信息合作伙伴,快手StreamLake深入参与此次大会,快手异构计算负责人刘凌志博士进行了《“芯”驱动:释放智能视频之力 》主题演讲,重点分享了快手SL200芯片的最新进展,介绍了智能视频SOC芯片的典型架构和主要功能,以及基于此芯片搭建的智能视频处理云端基础设施,展示在多种场景所表现的优异性能,并在圆桌论坛环节与嘉宾们探讨了如何与上下游企业进行深度合作。
“在AI大模型进入AGI时代的过程中,快手紧跟大模型应用浪潮,在搜广推场景、内容创作、提高研发效能等方面持续深耕大模型领域,并于近期发布了“快意”大语言模型,在CMMLU中文向排名中,KwaiYii-13B同时位列five-shot和zero-shot第一。”
刘凌志指出,大模型在音视频上的应用更加复杂。根据音视频第一性的原理,音视频主要是要解决清晰度、成本和流畅度三个问题,需要在这三者之间做到平衡。在此过程中,处在核心地位的就是视频的压缩和增强。
快手的大模型和视频编解码如何结合?刘凌志表示,在传统生产和消费的过程中,生产端视频首先经过编码器产生码流并传送到消费端,消费端通过解码器把视频解码出视频展示出来。利用大模型来做视频压缩和增强,视频通过理解网络生成出高维特征,并传输Text和Prompt,这是一个非常小的信息量,用户通过生成网络大模型再把视频恢复出来,这样可以极大地减少传输成本,得到更好的效果。
图注:快手异构计算负责人刘凌志
(图源StreamLake溪流湖公众号,下同)
在刘凌志看来,快手在大模型和视频领域面对的挑战归根到底是大算力的挑战,包括视频算力挑战和大模型算力挑战两个方面。
刘凌志表示,快手构建了大规模的基础设施,来支撑主站、电商、商业化、本地生活和海外在内的产品矩阵。快手核心技术包括音视频、AI和数据中心三大类,每一类技术都需要十分庞大的基础设施,比如千万级别的CPU核、10万级别的GPU和算力、10EB级别的数据存储,带宽需求也到了100TB规模。
为此,快手搭建了大模型架构体系。通过AI算力中心、平台、数据等高性能、高并发、高算力的大基建,可以支撑快手多模态大模型,而多模态大模型通过生成或理解,可以支持快手的搜广推、AIGC、增长或研发效能等大应用。
更进一步来看,快手AI大基建的数据已有日均数千万的短视频和数千万小时的直播,一方面是传输给用户,另一方面也是作为输入持续不断的输送到大模型之中,不断打磨大模型,达到更佳的效果。刘凌志强调,“更重要的是,我们在算力中心里面进行了比较深入的开发,这个深入开发最终体现在自研芯片SL200上。”
刘凌志指出,SL200也已实现了智能视频的处理,这在未来视频领域尤其重要,在同样主观质量下,可以继续降低20%以上的带宽。
据悉,快手SL200已达到行业领先的压缩效率,客观质量相比X265medium可以节省30%码率,单卡可以支持8K120帧/秒的处理或者8路4K60帧/秒的处理,内置智能画质处理引擎,支持内容自适应编码。
刘凌志认为,从芯片设计来看,进入到智能视频时代,需要的是一个具有多种功能的SOC芯片。这就要求芯片不仅要有高质量高密度的编解码器,还需要有能够支持实时视频处理的AI引擎。另外,为了支持未来视频算法的迭代,需要有较强的可编程的能力,所以SL200集成了多核GPGPU和高性能多核CPU,RISC-V处理器,以及数据中心里面的功耗检测、温度检测等功能,为了保护用户的隐私也需要内嵌硬件安全模块。
刘凌志透露,基于SL200芯片,快手自研了板卡、服务器,也与浪潮等合作开发了云服务器,同时搭建了算力中心,开发了全套自主软硬件的生态系统,已经在快手部署了数万片,并在各大公有云厂商进行测试。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn