蚂蚁集团联合北京大学发布大语言模型评测基准

柏纳
2023-11-02 23:30

11月2日消息,蚂蚁集团联合北京大学发布了首个面向DevOps领域的大模型评测基准DevOps-Eval,以帮助开发者跟踪DevOps领域大模型的进展,并了解各个DevOps领域大模型的优势与不足。

据了解,大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps领域,由于缺乏专门用于大型语言模型的评测基准,在有效评估和比较该领域大语言模型的能力方面存在严重不足,而DevOps-Eval的发布正是为解决这一不足。

format-jpg

图源:CodeFuse公众号

DevOps-Eval根据DevOps全流程进行划分,包含计划、编码、构建、测试、发布、部署、运维和监控这8个类别,包含4850道选择题。此外,DevOps-Eval还特别对运维/监控类别做了细分,添加日志解析、时序异常检测、时序分类和根因分析等常见的AIOps任务。由于DevOps-Eval根据场景对评测样本做了详尽的细分,因此除了DevOps领域大模型,也方便对特定领域大模型进行评测,如AIOps领域等。

目前,第一期的评测榜单已经,首批评测大模型包含OpsGpt、Qwen、Baichuan、Internlm等开源大语言模型。

蚂蚁集团表示,DevOps-Eval相关论文也在紧锣密鼓地撰写中。此外,蚂蚁集团称,“欢迎相关从业者一起来共建DevOps-Eval项目,持续丰富DevOps领域评测题目或大模型,我们也会定期更新题库和评测榜单。”

format-jpg

数据细分类别 图源:CodeFuse公众号

据了解,9月8日,蚂蚁集团在外滩大会上首次公开蚂蚁金融大模型“1+1+2”矩阵:一个金融大模型,一个Fin-Eval金融AI任务评测集,个人金融助理支小宝2.0和专家业务助理支小助。

其中,蚂蚁金融大模型基于蚂蚁自研基础大模型,针对金融产业深度定制,底层算力集群达到万卡规模。蚂蚁金融大模型聚焦真实的金融场景需求,在“认知、生成、专业知识、专业逻辑、合规性”五大维度28类金融专属任务中表现突出,目前已在蚂蚁集团的财富、保险平台上全面内测。

format-jpg

图源:蚂蚁集团公众号

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
蚂蚁集团今日在外滩大会上首次公开蚂蚁金融模型“1+1+2”矩阵:一个金融模型,一个Fin-Eval金融AI任务评测集,个人金融助理支小宝2.0和专家业务助理支小助。
蚂蚁集团模型研发团队透露将投入近20%的技术人员建设科技伦理,还与8所高校机构开展共建科技伦理知识体系。
12月22日消息,在蚂蚁集团科技伦理顾问委员会2023年度会议上,蚂蚁集团模型研发团队透露将投入近20%的技术人员建设科技伦理,还与8所高校机构开展共建科技伦理知识体系,打造负责任的AI。今年2月,蚂蚁集团在设立公司内部科技伦理委员会的基础上,正式成立科技伦理顾问委员会,由7名外部专家构成,为蚂蚁集团科技伦理建设给予方向性、战略性、针对性的指导建议。
11月6日消息,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,蚂蚁百灵模型已完成备案,基于百灵模型的多款产品已陆续完成内测,将向公众开放。本次通过备案的是蚂蚁百灵语言模型,该模型采用Transfromer架构,基于万亿级Token语料训练而成,支持窗口长度达32K。
近日,智谱AI关联公司北京智谱华章科技有限公司发生工商变更,新增股东蚂蚁集团子公司上海云玡企业管理咨询有限公司。
蚂蚁集团发布模型安全一体化解决方案“蚁天鉴”。
12月27日消息,“势起AI智启新界”模型创新应用与安全治理大会近日在广州举办,会上,蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“模型安全的紧迫性和实践”发表主旨演讲。他表示,模型安全既要“快”也要“慢”,模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害;在模型安全可信方面要“慢”,要能长远地、体系化地保证整个系统环境的可控、可信。
蚂蚁集团自研模型将在今年的外滩大会上发布最新落地进展,并且从模型层到应用层都会有展示。