搜索

阿里达摩院公开“图像中的文本识别方法、装置”专利
2022-03-18 11:50:35
阿里巴巴达摩院3月18日公开一项“图像中的文本识别方法、装置、设备及存储介质”专利。
阿里联手中科大等高校研发4项AI安全技术
2021-02-23 15:04:33
2月23日消息，据TechWeb消息，阿里安全图灵实验室涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队，分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作。具体来看，以文本内容为例，恶意用户可通过对文本中的违规内容进行变形变异，从而达到绕开模型识别检测的目的。为应对挑战，解决对抗场景中风控模型性能衰减的问题，阿里安全图灵实验室与浙江大学提出了基于对抗关系图的文本对抗防御技术。
阿里达摩院发布超大规模语言模型PLUG
2021-04-19 12:00:16
4月19日消息，阿里巴巴达摩院今日发布超大规模语言模型PLUG，该模型参数规模达270亿，是目前全球规模最大的中文纯文本预训练语言模型。通过训练AI模型，研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片，AI将为该声音找到“主人”。据介绍，在语音识别方面，达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架，提升计算效率的同时，还将高难度场景中的语音识别错误率降低近三成。
亚马逊据悉开发视频人工智能模型
2024-11-28 14:05:04
11月28日消息，知情人士透露，亚马逊开发了新的生成式人工智能，除文本外还能处理图像和视频，从而减少了对人工智能初创公司Anthropic的依赖。消息称，新的大型语言模型代号为“奥林巴斯”（Olympus），将能够理解图像和视频中的场景，并通过简单的文字提示帮助客户搜索特定场景。知情人士还说，亚马逊最早将在下周举行的技术大会上宣布有关这一模型的消息。
谷歌将在购物、视频推送中添加视觉搜索功能
2021-09-30 15:37:10
9月30日消息，谷歌近日表示，谷歌用户很快可以结合图像和文本在视频推送、购物过程中进行搜索查询，新功能将在几个月内通过Google Lens发布。谷歌高级副总裁Prabhakar Raghavan称，该功能对于寻找单凭语言难以准确描述的物品很有帮助。具体而言，用户在谷歌iOS应用程序或Chrome桌面浏览器上网时，可以运用反向图像搜索，选择一张图片将会出现类似的在线视觉效果，这可以帮助用户找到图片中商品的购买地点，并最终将其引导到Google Shopping。
谷歌将在购物、视频推送中添加视觉搜索功能
2021-09-30 14:15:39
谷歌在其直播的Search On会议上表示，谷歌用户很快就可以在视频推送和购物过程中，在搜索查询中结合图像和文本。
亚马逊新政策：Kindle出版商须公开作品中AI使用情况
2023-09-12 09:14:38
9月12日消息，亚马逊近日宣布了一项新政策，要求其Kindle Direct出版商必须披露他们在作品中使用人工智能生成的内容，包括文本、图像或翻译。这一政策的推出经过了数月与作家协会的讨论，旨在确保透明度和保护消费者。作家协会与亚马逊的讨论始于对AI生成图书泛滥的担忧，这可能会排挤人类作者，并可能使消费者无意中购买未经披露的AI生成文本。作家协会明确了AI生成和AI辅助的区别，并认为AI可以成为作家的有用工具。
亚马逊云科技正式上线Meta Llama 3.2模型
2024-10-10 11:49:00
10月10日消息，亚马逊云科技宣布，Meta的新一代模型Llama 3.2，包括其首款多模态模型，现已在Amazon Bedrock和Amazon SageMaker中正式可用。该系列模型进行了全新升级，提供高度差异化的功能更新，包括支持图像推理的小型和中型视觉大语言模型，以及针对设备端优化过的轻量级纯文本模型。
Etsy推出新功能Alt Text
2021-10-25 15:44:04
10月25日消息，据媒体报道，近日Etsy推出新功能Alt Text ，允许卖家为盲人和低视力购物者提供图像描述，卖家可以在每张图片中都添加对应的描述信息。卖家只需在Etsy网站上选择Shop Manager转到listing，然后选择要编辑的列表，将鼠标悬停在需编辑的图像上，点击带“铅笔”的图标，即可为图像添加替代文本。Etsy建议卖家描述产品图像时要简短，最多不超过250个字符。
通义千问全模态模型Qwen2.5-Omni开源
2025-03-27 09:22:23
3月27日消息，通义千问发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中，Qwen2.5-Omni刷新业界纪录，全维度远超Google的Gemini-1.5-Pro等同类模型。
度小满与哈工大共建“人工智能（大模型）联合研究中心”
2023-06-01 17:41:50
6月1日消息，度小满今日与哈尔滨工业大学宣布共同成立“哈尔滨工业大学-度小满人工智能联合研究中心”。双方还将共同培养生成式人工智能技术领域的领军人才，推动前沿技术的产业化应用加速。据了解，双方联合研究的课题包括大模型的思维链能力来源的探索、大模型长上下文建模、大模型快速适配声音、图像、文本等多模态数据、不同场景下大模型输出决策的可解释性等。
Shopify富文本编辑器上线“有序列表和标题”功能
2023-04-13 10:49:52
4月13日消息，为帮助商家丰富商店界面元素，美化独立站界面，Shopify在商店编辑器中提供了富文本编辑功能，支持商家对在线商店中显示的内容进行格式和样式设置。同时，富文本元字段中的设置将与在线商店编辑器中的富文本设置保持同步，确保元字段和在线商店编辑器在文字风格上的一致性，从而强化店铺的品牌形象。据了解，商家可以使用分区向在线商店的任何页面添加功能。可以选择、添加和配置包含图片、文本、品牌颜色等内容的分区。
小红书上线“此刻”功能支持用户发布纯文字笔记
2023-07-25 11:47:39
7月25日消息，小红书近日宣布上线“此刻”功能。通过该功能，用户可以直接输入文字，算法会基于输入的文本内容为用户生成一张图片并完成发布。另外，用户也可以在画板上涂鸦，并使用ai进行对涂鸦进行美化后再发布。据悉，这一功能的落地得益于AIGC技术。目前，这一功能已经在最新版本中全量上线。
百度文心一言截止3月16日21点申请API调用企业已突破6.5万
2023-03-17 08:56:21
3月17日消息，百度日前召开新闻发布会。百度创始人、董事长兼首席执行官李彦宏介绍了其对标+ChatGPT的大语言模型、生成式AI产品“文心一言”，并展示了文心一言在五个场景中的综合能力。多模态生成方面，李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。截止3月16日21点，申请文心一言API调用服务测试的企业已突破6.5万。
IDC报告：百度新搜索文小言综合测评排名第一
2024-09-04 15:18:39
9月4日消息，IDC 9月发布的《移动端大模型应用市场竞争力分析》显示，百度旗下“新搜索”智能助手文小言，在同类产品综合测评中排名第一。据了解，文小言已推出富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等"新搜索"能力，及记忆和自由订阅等独家功能，可全面满足用户搜、创、聊需求。
字节旗下豆包升级文生图能力
2024-12-05 14:42:00
12月5日消息，字节跳动旗下智能AI助手豆包升级文生图能力，支持一键生成指定文本。用户可以在生图提示词中加入文本要求，如“一张带有‘新年快乐’的图”，即可生成带有指定文字的图片。目前该功能已经在豆包APP开启测试，即梦也已小范围测试。
钉钉AI助理升级：上线图片理解、文档速读等功能
2024-03-29 01:30:23
基于阿里通义千问大模型，升级后的钉钉AI助理拥有更强的视觉推理能力和长文本速读能力。
钉钉AI助理升级加入多模态、工作流等能力
2024-03-28 14:17:58
3月28日消息，钉钉AI助理升级，上线图片理解、文档速读、工作流等产品能力，率先探索多模态、长文本与RPA技术在AI应用的落地。基于阿里通义千问大模型，升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力，甚至可以通过多轮交互进一步做智能问答。
快手可灵AI用户超600万累计生成超6500万个视频
2024-12-12 15:31:38
12月12日消息，快手副总裁、大模型团队负责人张迪在“2024AIGC视觉应用论坛”上透露，可灵AI上线半年以来经历过16次迭代，目前已有超过600万用户，累计生成超6500万个视频和超1.75亿张图片。他表示，可灵AI将于近期推出全新的1.6版本模型，在文本遵循、动态表现、风格一致性等方面将有大幅提升。
支付宝公开“一种二维码识别方法、装置”专利
2021-07-05 21:08:55
7月5日消息，天眼查信息显示，支付宝信息技术有限公司于2日公开多项发明专利，其中一项名为“一种二维码识别方法、装置及设备”，申请公布号CN113065374A，申请日期2021年4月。根据专利摘要显示，利用终端设备的检测模型，检测出待识别图像中的有码区域，并主动调整测光点到该区域，最终相机采集到的图片有码的部分可以得到合适的曝光参数从而得到清晰完整的二维码图像。