魔搭社区上线AI视频生成工具Live Portait,可一键让照片开口说话

电商报
2023-08-16 14:15

阿里云在生成式AI领域又有新进展。8月16日消息,阿里云推出数字人视频生成工具Live Portait,上传一张照片和一段文本或语音即可生成一段开口说话的数字人视频,可应用于视频直播、聊天机器人、企业营销等场景。目前,该工具已在魔搭社区创空间开放体验。

format-jpg

自对话大模型和AI绘画模型相继火热后,业界对生成式AI的研究逐步朝更多模态的方向演进,AI视频生成便是热门技术之一。该技术可将文本或音频等信息转换为面部运动信息,进而驱动生成照片人物形象的动画,能有效降低视频拍摄和制作门槛。

此次上线的Live Portait工具由运动模块和生成模块组成,其采用阿里云自研的口型预测算法,生成的口型准确度相比传统方法大幅提高;在训练阶段,增加了姿态的显式控制,无需底板视频也可以生成任意动作的视频,大幅提升数字人说话的真实感;此外,通过眼神主动控制技术,Live Portait可以为眼球增加一些自然运动,使得生成结果在观感上更接近真人效果。据介绍,Live Portait相关技术已被CVPR、ICCV等国际AI顶会收录。

format-jpg

根据魔搭社区上的信息显示,在Live Portait上传照片后,用户可选择文本驱动和音频驱动两种方式,文本驱动模式下,该工具提供了普通话、英语、粤语、童声等28种声音。此外,Live Portait还提供了轻量模型选择,帮助用户更快速生成视频。

该工具算法负责人张邦表示:“ Live Portait集成了团队多项自研创新技术,例如仅需单张图片就能生成逼真的面部动画,突破了传统对抗生成网络的局限。随着技术的进一步迭代,图生视频有巨大的应用空间,有望成为企业降本增效的生产工具。”

据悉,该团队研究方向涵盖数字人、3D模型AI生成、高真实感渲染、自然人机交互等领域,目前已发表50多篇国际顶会论文。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
3月22日消息,阿里达摩院已在AI模型社区”ModelScope上线了“文本生成视频大模型”。根据介绍,整体模型参数约17亿,目前只支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。据了解,“”是阿里达摩院联手CCF开源发展委员会在2022云栖大会推出的AI模型社区,首批开源模型超过300个,包括视觉、语音、自然语言处理、多模态等AI主要方向。
5月29日消息,2023中关村论坛期间,阿里云智能集团CTO周靖人指出,“以模型为中心的开发范式 已成为行业标准,未来应用开发的整个链路都会基于这一理念来做。”去年11月,阿里云率先在业界提出“Model as a service”概念,并推出开源AI社区,进一步降低了AI开发的门槛。据周靖人介绍,半年间,社区模型总量已超过900个,总用户量超150万,模型总下载量超2000万。
9月8日消息,百川智能日起前发布第二代开源模型Baichuan 2,正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。据了解,以上模型均免费可商用,已在阿里云AI模型社区ModelScope首发上架,现已推出了模型部署相关教程,供开发者参考并快速上手。
6月15日消息,在2023开放原子全球开源峰会上,阿里云公布1+4开源战略,在操作系统、云原生、数据库、大数据四大开源领域之外,AI模型社区作为大模型方向的开源新势力首次亮相。阿里云市场总裁刘湘雯在会上表示,未来阿里云将持续拥抱开源生态,持续投入AI、云原生、数据库、大数据、操作系统等领域的开源工作,持续提升开发者服务和企业创新支持。
3月26日消息,阿里通义千问与DeepSeek均于昨日低调开源了两款新模型。阿里发布了更适合本地部署的高性能“多模态模型”Qwen2.5-VL-32B,DeepSeek则将此前热门的“基座模型”V3更新到0324版本,并官宣在社区上架开源。截至目前,社区模型总数已超4万个,已成为中国最大的AI开源社区
阿里巴巴副总裁叶杰平在2023 ACM中国图灵大会上发表演讲。
AI2.0公司零一万物正式发布模型Yi-34B,并在阿里云社区ModelScope首发。
7月31日消息,据《科创板日报》,阿里巴巴副总裁叶杰平表示,社区已集聚了1000多款AI模型和200多万AI开发者,模型累计下载超过4500万次,并与清华、北大、浙大等20多所高校展开学术合作,有50万开发者来自高校。目前,社区里的第三方模型包括清华和智谱共同研发的ChatGLM系列模型、清华大学人工智能创新团队 TSAIL 研发的Unidiffuser系列模型、IDEA研究院封神榜姜子牙系列模型、浙江大学NLP和知识图谱团队研发的智析模型等。
支付宝联合社区率先在国内推出“支付MCP Server”服务,让AI智能体一键接入支付能力,打通从AI服务到AI商业化的“最后一公里”。