美图自研视觉大模型3.0发布 将落地电商等五大行业

拾枫
2023-10-10 09:34

10月10日消息,美图公司日前举办15周年生日会并发布自研AI视觉大模型MiracleVision(奇想智能)3.0版本。面世100天后,美图AI视觉大模型MiracleVision3.0将全面应用于美图旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。

在美图公司15周年生日会现场,美图公司创始人、董事长兼首席执行官吴欣鸿发布了自研AI视觉大模型MiracleVision3.0版本。吴欣鸿介绍说,三个月前,MiracleVision绘画水平还停留在初级阶段,如今3.0版本已经能描绘出真实细腻的画面细节,目前用户可以访问AI视觉创作工具“WHEE”官网体验。

美图公司将自研AI视觉大模型MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

format-jpg

图源:美图公司官微,下同

在“奇思妙想”层面,MiracleVision通过“提示词智能联想”功能降低大众的使用门槛,当用户输入关键词,MiracleVision可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,MiracleVision通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

在“智能创作”层面,MiracleVision通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

format-jpg

在吴欣鸿看来,AI视觉大模型带来的不仅仅是更好的视觉呈现,还有对工作流的效率提升,但目前大模型与工作流的结合仍在探索阶段,抓住应用场景的核心需求更为重要。吴欣鸿介绍说,MiracleVision将落地电商、广告、游戏、动漫、影视五大行业,希望能帮助五大行业“工作流提效”。

在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过MiracleVision实现。在广告行业,MiracleVision覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。在游戏行业,MiracleVision可以包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。在动漫行业,MiracleVision打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。在影视行业,MiracleVision的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。

format-jpg

吴欣鸿表示,MiracleVision将充分发挥奇思妙想、智能创作的能力,在上述五大行业深耕,持续助力更多的设计场景。

活动现场,吴欣鸿还分享了对于AI视觉大模型的思考。“AI视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

吴欣鸿表示,目前AI视觉大模型在生产端的三个待解决的问题是:垂直领域的极致效果、工作流整合、变现能力。随着AI视觉大模型和生产端的磨合,这三个问题会被逐步解决。

在吴欣鸿看来,视觉大模型应用普及将经历三个阶段:2024年之前为探索期,2024-2025年为高速发展期,2026-2030年为成熟期,随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

format-jpg

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
10月10日消息,港股盘中涨逾10%,最高报3.82港元创2021年3月以来新高。消息上,10月9日,发布AI视觉模型MiracleVision3.0版本。面世100天后,AI视觉模型MiracleVision3.0将全面应用于旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。
6月19日,公司举办以“AI时代的影像生产力工具”为主题的第二届影像节,现场发布7款新品。
10月23日消息,虹软AI创新产品——PhotoStudio® AI智能商拍摄影云工作室(Beta)上线,首发开放PhotoStudio® AI CL(服装版)与PhotoStudio® AI MC(商品版)图像生成服务,免费注册即可试用!
6月1日消息,在5月31日举行的三六零智慧生活集团视觉模型AI硬件新品发布会上,周鸿祎宣布发布“360智脑-视觉模型”。视觉模型是“360智脑”的重要能力组成,使其能看懂图片,未来看懂视频、听懂声音。周鸿祎认为,目前模型的能力主要体现在软件层,接入智能硬件后,会让模型的能力从数字世界走向物理世界。
12月30日消息,支付宝推出新一代AI视觉搜索产品“探一下”,基于自研的多模态模型技术,可“用AI之眼探索万物”,提供更快速、有用、趣味的生成式搜索服务。用户遇到感兴趣的事物,就能让AI通过摄像头,识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等,还能趣味解读萌宠照、宝宝照等,晒图不愁配文案。目前该产品已上线支付宝,在首页点击“扫一扫”后左划即可找到它,在支小宝App也能快速访问。
10月17日消息,百度创始人、董事长兼首席执行官李彦宏表示,未来的AI原生应用一定是多模态的,自动驾驶是视觉模型重构物理世界的典型应用。目前,百度萝卜快跑已经是全球最大的自动驾驶出行服务商,累计提供了超过400万次服务。
8月21日消息, 在快手业绩电话会上,快手联合创始人、董事长兼CEO程一笑介绍,快手已在AI领域展开全面布局,目前快手已经构建了一套支持万亿参数模型训练和推理的基础设施,并基于此,先后研发了快意语言模型视觉生成模型和推荐模型。程一笑表示,程一笑表示,未来,快手将坚定执行AI战略,进一步升级可灵模型。针对可灵AI的商业化,除了加强C端会员付费的全球运营外,也将寻求更多与B端合作变现的可能性,力争尽快实现可观的商业化变现规模。
11月19日消息,有媒体称,原腾讯混元模型技术负责人之一、前AI Lab计算机视觉中心负责人刘威于近日离职。对上述信息,截至发稿前,腾讯官方暂无回应。
据“AI科技评论”公众号,胡瀚不久前加入腾讯,接替已离职的前腾讯混元模型技术负责人之一的刘威,负责多模态模型的研发工作。