1. 阿里巴巴达摩院3月18日公开一项“图像文本识别方法、装置、设备及存储介质”专利。
  2. 2月23日消息,据TechWeb消息,阿里安全图灵实验室涉及文本变异对抗、图像、视频内容风控以及AI小样本研究4个团队,分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作。具体来看,以文本内容为例,恶意用户可通过对文本违规内容进行变形变异,从而达到绕开模型识别检测目的。为应对挑战,解决对抗场景中风控模型性能衰减问题,阿里安全图灵实验室与浙江大学提出了基于对抗关系图文本对抗防御技术。
  3. 4月19日消息,阿里巴巴达摩院今日发布超大规模语言模型PLUG,该模型参数规模达270亿,是目前全球规模最大中文纯文本预训练语言模型。通过训练AI模型,研究表情和声音关系。给定一段声音和仅有一张正确人脸若干图片,AI将为该声音找到“主人”。据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA流式端到端语音识别框架,提升计算效率同时,还将高难度场景语音识别错误率降低近三成。
  4. 11月28日消息,知情人士透露,亚马逊开发了新生成式人工智能,除文本外还能处理图像和视频,从而减少了对人工智能初创公司Anthropic依赖。消息称,新大型语言模型代号为“奥林巴斯”(Olympus),将能够理解图像和视频场景,并通过简单文字提示帮助客户搜索特定场景。知情人士还说,亚马逊最早将在下周举行技术大会上宣布有关这一模型消息。
  5. 9月30日消息,谷歌近日表示,谷歌用户很快可以结合图像文本在视频推送、购物过程进行搜索查询,新功能将在几个月内通过Google Lens发布。谷歌高级副总裁Prabhakar Raghavan称,该功能对于寻找单凭语言难以准确描述物品很有帮助。具体而言,用户在谷歌iOS应用程序或Chrome桌面浏览器上网时,可以运用反向图像搜索,选择一张图片将会出现类似在线视觉效果,这可以帮助用户找到图片商品购买地点,并最终将其引导到Google Shopping。
  6. 谷歌在其直播Search On会议上表示,谷歌用户很快就可以在视频推送和购物过程,在搜索查询结合图像文本
  7. 9月12日消息,亚马逊近日宣布了一项新政策,要求其Kindle Direct出版商必须披露他们在作品使用人工智能生成内容,包括文本图像或翻译。这一政策推出经过了数月与作家协会讨论,旨在确保透明度和保护消费者。作家协会与亚马逊讨论始于对AI生成图书泛滥担忧,这可能会排挤人类作者,并可能使消费者无意购买未经披露AI生成文本。作家协会明确了AI生成和AI辅助区别,并认为AI可以成为作家有用工具。
  8. 10月10日消息,亚马逊云科技宣布,Meta新一代模型Llama 3.2,包括其首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker正式可用。该系列模型进行了全新升级,提供高度差异化功能更新,包括支持图像推理小型和中型视觉大语言模型,以及针对设备端优化过轻量级纯文本模型。
  9. Etsy推出新功能Alt Text
    2021-10-25 15:44:04
    10月25日消息,据媒体报道,近日Etsy推出新功能Alt Text ,允许卖家为盲人和低视力购物者提供图像描述,卖家可以在每张图片都添加对应描述信息。卖家只需在Etsy网站上选择Shop Manager转到listing,然后选择要编辑列表,将鼠标悬停在需编辑图像上,点击带“铅笔”图标,即可为图像添加替代文本。Etsy建议卖家描述产品图像时要简短,最多不超过250个字符。
  10. 3月27日消息,通义千问发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可同时处理文本图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。在权威多模态融合任务OmniBench等测评,Qwen2.5-Omni刷新业界纪录,全维度远超GoogleGemini-1.5-Pro等同类模型。
  11. 6月1日消息,度小满今日与哈尔滨工业大学宣布共同成立“哈尔滨工业大学-度小满人工智能 联合研究中心”。双方还将共同培养生成式人工智能技术领域领军人才,推动前沿技术产业化应用加速。据了解,双方联合研究课题包括大模型思维链能力来源探索、大模型上下文建模、大模型快速适配声音、图像文本等多模态数据、不同场景下大模型输出决策可解释性等。
  12. 4月13日消息,为帮助商家丰富商店界面元素,美化独立站界面,Shopify在商店编辑器提供了富文本编辑功能,支持商家对在线商店显示内容进行格式和样式设置。同时,富文本元字段设置将与在线商店编辑器文本设置保持同步,确保元字段和在线商店编辑器在文字风格上一致性,从而强化店铺品牌形象。据了解,商家可以使用分区向在线商店任何页面添加功能。可以选择、添加和配置包含图片文本、品牌颜色等内容分区。
  13. 7月25日消息,小红书近日宣布上线“此刻”功能。通过该功能,用户可以直接输入文字,算法会基于输入文本内容为用户生成一张图片并完成发布。另外,用户也可以在画板上涂鸦,并使用ai进行对涂鸦进行美化后再发布。据悉,这一功能落地得益于AIGC技术 。目前,这一功能已经在最新版本全量上线。
  14. 3月17日消息,百度日前召开新闻发布会。百度创始人、董事长兼首席执行官李彦宏介绍了其对标+ChatGPT大语言模型、生成式AI产品“文心一言”,并展示了文心一言在五个场景综合能力。多模态生成方面,李彦宏现场展示了文心一言生成文本图片、音频和视频能力。截止3月16日21点,申请文心一言API调用服务测试企业已突破6.5万。
  15. 9月4日消息,IDC 9月发布《移动端大模型应用市场竞争力分析》显示,百度旗下“新搜索”智能助手文小言,在同类产品综合测评排名第一。据了解,文小言已推出富媒体搜索、多模态输入、文本图片创作、高拟真数字人等"新搜索"能力,及记忆和自由订阅等独家功能,可全面满足用户搜、创、聊需求。
  16. 12月5日消息,字节跳动旗下智能AI助手豆包升级文生图能力,支持一键生成指定文本。用户可以在生图提示词加入文本要求,如“一张带有‘新年快乐’图”,即可生成带有指定文字图片。目前该功能已经在豆包APP开启测试,即梦也已小范围测试。
  17. 基于阿里通义千问大模型,升级后钉钉AI助理拥有更强视觉推理能力和文本速读能力。
  18. 3月28日消息,钉钉AI助理升级,上线图片理解、文档速读、工作流等产品能力,率先探索多模态、文本与RPA技术在AI应用落地。基于阿里通义千问大模型,升级后钉钉 AI 助理拥有更强视觉推理能力和文本速读能力,甚至可以通过多轮交互进一步做智能问答。
  19. 12月12日消息,快手副总裁、大模型团队负责人迪在“2024AIGC视觉应用论坛”上透露,可灵AI上线半年以来经历过16次迭代,目前已有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。他表示,可灵AI将于近期推出全新1.6版本模型,在文本遵循、动态表现、风格一致性等方面将有大幅提升。
  20. 7月5日消息,天眼查信息显示,支付宝 信息技术有限公司于2日公开多项发明专利,其中一项名为“一种二维码识别方法、装置及设备”,申请公布号CN113065374A,申请日期2021年4月。根据专利摘要显示,利用终端设备检测模型,检测出待识别图像有码区域,并主动调整测光点到该区域,最终相机采集到图片有码部分可以得到合适曝光参数从而得到清晰完整二维码图像