搜索

阿里达摩院公开“视频文本识别方法、装置”专利
2022-03-25 14:57:00
阿里巴巴达摩院3月25日公开一项“视频文本识别方法、装置、电子设备及可读存储介质”专利。
阿里达摩院上线“文本生成视频大模型”
2023-03-22 16:46:02
3月22日消息，阿里达摩院已在AI模型社区“魔搭”ModelScope上线了“文本生成视频大模型”。根据介绍，整体模型参数约17亿，目前只支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。据了解，“魔搭”是阿里达摩院联手CCF开源发展委员会在2022云栖大会推出的AI模型社区，首批开源模型超过300个，包括视觉、语音、自然语言处理、多模态等AI主要方向。
周鸿祎谈Sora：对短视频颠覆巨大，但未必能击败TikTok
2024-02-16 17:23:09
OpenAI今日推出一款全新的文本到视频生成模型Sora，该模型允许用户创建长达一分钟的逼真视频——所有这些都基于他们编写的提示。
周鸿祎谈Sora：对短视频颠覆巨大，但未必能击败TikTok
2024-02-16 17:23:52
2月16日消息，OpenAI今日推出一款全新的文本到视频生成模型Sora，该模型允许用户创建长达一分钟的逼真视频。根据OpenAI的介绍性博客文章，Sora能够创建具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。针对该模型，360董事长周鸿祎表示，Sora将对短视频行业有巨大的颠覆，但未必能击败TikTok，更多是创作力工具。此外，周鸿祎认为，中美两国的人工智能差距在拉大。
谷歌将在购物、视频推送中添加视觉搜索功能
2021-09-30 15:37:10
9月30日消息，谷歌近日表示，谷歌用户很快可以结合图像和文本在视频推送、购物过程中进行搜索查询，新功能将在几个月内通过Google Lens发布。谷歌高级副总裁Prabhakar Raghavan称，该功能对于寻找单凭语言难以准确描述的物品很有帮助。具体而言，用户在谷歌iOS应用程序或Chrome桌面浏览器上网时，可以运用反向图像搜索，选择一张图片将会出现类似的在线视觉效果，这可以帮助用户找到图片中商品的购买地点，并最终将其引导到Google Shopping。
快手内测短视频直播行业首个智能问答产品
2023-07-08 11:17:57
快手正在进行智能问答产品的内测，在搜索场景中为用户带来智能问答和文本创作等新功能。
亚马逊据悉开发视频人工智能模型
2024-11-28 14:05:04
11月28日消息，知情人士透露，亚马逊开发了新的生成式人工智能，除文本外还能处理图像和视频，从而减少了对人工智能初创公司Anthropic的依赖。消息称，新的大型语言模型代号为“奥林巴斯”（Olympus），将能够理解图像和视频中的场景，并通过简单的文字提示帮助客户搜索特定场景。知情人士还说，亚马逊最早将在下周举行的技术大会上宣布有关这一模型的消息。
阿里云推出数字人视频生成工具Live Portait
2023-08-16 15:14:23
8月16日消息，阿里云推出数字人视频生成工具Live Portait，上传一张照片和一段文本或语音可生成一段开口说话的数字人视频，可应用于视频直播、聊天机器人、企业营销等场景。目前，该工具已在魔搭社区创空间开放体验。
阿里云推出数字人视频生成工具Live Portait
2023-08-16 15:26:24
目前，该工具已在魔搭社区创空间开放体验。在Live Portait上传照片后，用户可选择文本驱动和音频驱动两种方式。
快手搜索正在内测短视频直播行业首个智能问答产品
2023-07-08 11:05:02
7月8日消息，快手正在进行智能问答产品的内测，在搜索场景中为用户带来智能问答和文本创作等新功能。据了解，这是短视频直播行业首个基于大语言模型落地的应用产品。
Tik Tok 推出文本化内容支持
2023-07-25 08:33:50
7月25日消息，TikTok日前宣布扩展TikTok的文本帖子。据介绍，这是一种创建基于文本内容的新格式，为创作者分享想法和表达创造力提供了更多选择。通过文字帖子，TikTok平台正在为TikTok上的每个人拓展内容创作的界限，为用户在评论、标题和视频中看到的书面创意提供一个专门的发挥空间。
Shopee菲律宾站推出视频功能“Shopee Video”
2023-12-28 20:51:17
12月28日消息，Shopee菲律宾站宣布上线新功能“Shopee Video”，卖家可利用此功能上传商品演示视频，推动订单转化。据了解，“Shopee Video”功能位于应用底部导航栏的第四个位置，用户可通过点击通知直接进入视频页面。同时，卖家、KOL 和 Shopee 用户都可以从视频库中上传现有视频或录制自己的视频，还可以使用平台的滤镜、视频效果、贴纸、添加音乐、文本和配音音频，甚至可以剪辑视频。
快手可灵大模型发布图生视频及视频续写功能
2024-06-21 15:36:13
6月21日消息，快手视频生成大模型“可灵”再度进化，正式推出图生视频功能，支持将任意静态图像转化为生动的5s精彩视频，搭配创作者输入的不同文本，可生成多种多样的运动效果。可灵还同步发布了业内领先的视频续写功能，支持对已生成的视频一键续写和连续多次续写，单次可让视频延续约5秒，最长可生成约3分钟视频。
快手可灵大模型可续写生成最长约3分钟视频
2024-06-23 10:59:17
6月23日消息，快手的视频生成大模型“可灵”近日正式推出图生视频功能，支持用任意静态图像生成5s视频，并且可搭配不同的文本内容，实现丰富的视觉叙事。同时，可灵还发布了业内领先的视频续写功能，可为已生成的视频（含文生视频及图生视频）提供便捷的一键续写和连续多次续写，将视频最长可延伸至约3分钟，充分显示了可灵强大的想象力与精细的可控性，极大地拓展了视频大模型的创作边界。
谷歌将在购物、视频推送中添加视觉搜索功能
2021-09-30 14:15:39
谷歌在其直播的Search On会议上表示，谷歌用户很快就可以在视频推送和购物过程中，在搜索查询中结合图像和文本。
快手可灵AI用户超600万累计生成超6500万个视频
2024-12-12 15:31:38
12月12日消息，快手副总裁、大模型团队负责人张迪在“2024AIGC视觉应用论坛”上透露，可灵AI上线半年以来经历过16次迭代，目前已有超过600万用户，累计生成超6500万个视频和超1.75亿张图片。他表示，可灵AI将于近期推出全新的1.6版本模型，在文本遵循、动态表现、风格一致性等方面将有大幅提升。
阿里联手中科大等高校研发4项AI安全技术
2021-02-23 15:04:33
2月23日消息，据TechWeb消息，阿里安全图灵实验室涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队，分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作。具体来看，以文本内容为例，恶意用户可通过对文本中的违规内容进行变形变异，从而达到绕开模型识别检测的目的。为应对挑战，解决对抗场景中风控模型性能衰减的问题，阿里安全图灵实验室与浙江大学提出了基于对抗关系图的文本对抗防御技术。
阿里联手中科大等高校研发4项AI安全技术
2021-02-23 17:16:54
2月23日消息，据TechWeb消息，阿里安全图灵实验室涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队，分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作。据悉，阿里和上述高校合作研发了包括“内容安全、文本反垃圾、AI模型鲁棒性、营商环境治理”4项新一代安全架构核心AI安全技术成果，均被国际会议ICASSP2021收录。
字节跳动辟谣推出中文版Sora
2024-02-20 10:47:23
2月20日消息，今日有消息称，在Sora引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型—Boximator。与Gen-2、Pink1.0等模型不同的是，Boximator可以通过文本精准控制生成视频中人物或物体的动作。对此，字节跳动相关人士回应称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
快手可灵AI面向全球发布1.5模型
2024-09-19 17:17:17
9月19日消息，可灵AI面向全球发布升级，视频生成新增可灵1.5模型，在画面质量、动态质量、文本响应度等方面均有大幅提升。同时，可灵AI还引入了全新的“运动笔刷”功能，进一步提升视频生成的精准控制能力。据介绍，自今年6月发布以来，这已经是可灵AI累计第9次迭代，目前已有超260万人使用过可灵AI，并累计生成超2700万个视频、5300万张图片。