抖音AI越搞越猛，硬刚阿里快手

胜者为王。

1.抖音“即梦AI”移动端上线苹果商店

现在，市面上的AI工具越来越多，功能也更加强大了。从图片生成、视频生成，再到故事创作，各大互联网公司对AI技术的更新迭代，让创作变得简单。

比如，字节跳动旗下剪映推出的AI创作平台“即梦AI”，集图片生成、智能画布、视频生成、故事创作4大功能，用户可以用AI作图，输入提示词生成图片，也可以生成视频，画面栩栩如生。

近日，据钛媒体AGI独家获悉，“即梦AI”移动端已上架苹果APP Store应用商店。更早之前的7月31日，即梦AI安卓版已上架小米等各大安卓应用商店，版本号为1.0.0，可供用户下载使用。

而在今年5月，即梦AI网页版已上线。

应用介绍显示，即梦AI是一个专为创意爱好者打造的AI表达平台，让你的想象力成为现实。

主页面功能包括图片生成与视频生成，其中，图片创作可选择八款通用模型，视频生成也可以选择运镜角度，包括随机、推近、拉远、顺时针、逆时针，而视频速度则有快中慢三档。底部Tab键还可进入灵感社区，一键创作同款作品。

截至目前，“即梦AI”已上线会员服务，用户可选择连续包月每月69元、单月79元，或连续包年659元，对应购买505个积分/月，从而生成约2020张图片或168个AI视频。每天登陆即梦AI可获得66积分，并在当天后清零。

至于即梦AI背后的开发团队是“深圳市脸萌科技有限公司”，该公司是字节跳动在2018年收购的相机拍照工具《Faceu激萌》团队，交易总价约3亿美元。

目前，脸萌科技隶属于字节跳动旗下的剪映业务，由剪映业务负责人张楠（Kelly Zhang）领导。

话又说回来，在抖音的AI产品矩阵当中，即梦AI算是推出比较晚的AI产品。在此之前，抖音已经有豆包、Cici、MagicVideo、MagicAnimate等产品和模型。

MagicVideo- V2于今年1月发布，是一款ai视频生成模型，可以文生视频、图生视频，也可以用来给视频换风格；而MagicAnimate于去年12月上线，可以让图片生成逼真的视频动态效果。

抖音各种大模型项目遍地开花，与其加大投入大模型业务有关。去年2月，抖音开始组建大模型团队，由TikTok产品技术负责人朱文佳带队，主要发力语言和图像两种模态。

紧接着11月，又有消息称，抖音成立新部门Flow，发力AI应用层，仍然由朱文佳担任业务负责人。

如今，即梦AI移动端上线各大应用商店，表明抖音AI业务得到进一步发展。依托剪映在图片和视频创作领域的优势，即梦AI将可以迅速出圈。

2.视频生成大模型，抖音也不想落下

今年2月，全球知名人工智能公司OpenAI上线文生视频大模型Sora。一经发布，该款产品迅速火遍全球，成为大家的关注重点。

只要给Sora一些提示词，它就可以生成1分钟的Ai视频内容。当时Sora生成的视频中最典型的案例，是一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。

如果不提前告诉你这是由Ai生成的，你绝对不会发现。Sora的上线引起的轰动效果可谓显著，国内各大互联网科技企业都不想掉队，争相加大投入视频生成模型。

而在此之前，国内互联网公司已经有所成绩。比如阿里巴巴自研的视频生成模型 AnimateAnyone，可以让一张照片生成一段舞蹈视频，就有网友用这个AI模型让兵马俑跳科目三。

而早在去年11月底，该研究论文便已经在海外视频播放量超 1 亿。今年3月，阿里一个高保真图像视频生成框架AtomoVideo，能让生成的视频更加逼真。

此前2月份，阿里还推出了AI图片-音频-视频模型EMO，仅需一张人物肖像和音频，就可以肖像人物开口唱歌。

另外还有腾讯的视频生成模型AnimateZero，可以实现精准地控制视频的外观和运动，比如更改车的颜色，或者将动漫人物的图片生成的视频，并融入眼睛变色、头发蓬松等细节。

快手方面，今年7月初，在2024世界人工智能大会上，快手大模型首次集体亮相，其中就有视频生成大模型“可灵”。

今年6月，快手自研的“可灵”视频生成大模型官网正式上线，至今不到两个月就已经迎来三次迭代升级。据了解，初次亮相的可灵大模型全面对标Sora，并在内容生产方面取得了新突破。

比如此前Sora仅能生成60秒左右的高清视频，而可灵AI则将生成视频时长拉长至2分钟。可灵的画质、镜头控制、首尾帧控制也随着产品升级，而有了实质性的飞跃。

值得一提的是，在腾讯、阿里、抖音都没有向用户开放视频大模型的使用权限时，可灵率先全面开放内测，在快手旗下的快影App开放邀测体验。

可以看出，国内其他互联网公司在视频生成模型方面取得一项又一项突破，这不免给抖音带来压力。抖音“即梦AI”上线各大应用商店，显然是主动出击，直面市场压力。

我们也能看到，视频生成模型的功能和效果已经发生了翻天覆地的变化，场景识别和情感分析则能够更深入地理解视频内容，为用户创造出了前所未有的视觉体验。

3.成本依旧是难题

尽管大模型赛道十分火热，但成本依旧是困扰绝大多数人工智能企业的难题。相较于大型语言模型，像Sora这样的视频生成模型涉及到更复杂的数据处理和更高的计算要求，训练成本更高。

据国盛证券报告《ChatGPT 需要多少算力》估算，大型语言模型（LLM）如GPT-3的单次训练成本约为140万美元。然而，对于更大规模的LLM，训练成本会显著增加，介于200万美元至1200万美元之间。

LLM的训练需要使用大量的高端GPU，如英伟达的A100等。这些GPU的价格昂贵，且需要配置相应的服务器和存储设备。此外，由于训练过程中需要持续运行大量的计算任务，因此电费也是一项不可忽视的成本。

以 ChatGPT 在1月的独立访客平均数1300万计算，其对应芯片需求为3万多片英伟达A100 GPU，初始投入成本约为8亿美元，每日电费在5万美元左右。

同时，据澎湃新闻报道，Sora在训练阶段至少需要4200~10500块英伟达H100 GPU，并持续训练1个月。去年也有消息传出，抖音向英伟达订购了超过10亿美元的GPU。

据虎嗅报道，按照某国内AI公司最近公布的AI图片生成最大折扣价算，生成1张图片的价格最低0.06元，1秒25帧，花费1.5元，120秒的视频成本高达180元。

总之，AI视频生成的高成本是限制大模型企业的重要因素。因此，企业还需要探索多样化的商业模式以平衡成本与收益。