蚂蚁集团联合北京大学发布大语言模型评测基准

柏纳

2023-11-02 23:30

11月2日消息，蚂蚁集团联合北京大学发布了首个面向DevOps领域的大模型评测基准DevOps-Eval，以帮助开发者跟踪DevOps领域大模型的进展，并了解各个DevOps领域大模型的优势与不足。

据了解，大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps领域，由于缺乏专门用于大型语言模型的评测基准，在有效评估和比较该领域大语言模型的能力方面存在严重不足，而DevOps-Eval的发布正是为解决这一不足。

format-jpg

图源：CodeFuse公众号

DevOps-Eval根据DevOps全流程进行划分，包含计划、编码、构建、测试、发布、部署、运维和监控这8个类别，包含4850道选择题。此外，DevOps-Eval还特别对运维/监控类别做了细分，添加日志解析、时序异常检测、时序分类和根因分析等常见的AIOps任务。由于DevOps-Eval根据场景对评测样本做了详尽的细分，因此除了DevOps领域大模型，也方便对特定领域大模型进行评测，如AIOps领域等。

目前，第一期的评测榜单已经，首批评测大模型包含OpsGpt、Qwen、Baichuan、Internlm等开源大语言模型。

蚂蚁集团表示，DevOps-Eval相关论文也在紧锣密鼓地撰写中。此外，蚂蚁集团称，“欢迎相关从业者一起来共建DevOps-Eval项目，持续丰富DevOps领域评测题目或大模型，我们也会定期更新题库和评测榜单。”

format-jpg

数据细分类别图源：CodeFuse公众号

据了解，9月8日，蚂蚁集团在外滩大会上首次公开蚂蚁金融大模型“1+1+2”矩阵：一个金融大模型，一个Fin-Eval金融AI任务评测集，个人金融助理支小宝2.0和专家业务助理支小助。

其中，蚂蚁金融大模型基于蚂蚁自研基础大模型，针对金融产业深度定制，底层算力集群达到万卡规模。蚂蚁金融大模型聚焦真实的金融场景需求，在“认知、生成、专业知识、专业逻辑、合规性”五大维度28类金融专属任务中表现突出，目前已在蚂蚁集团的财富、保险平台上全面内测。

format-jpg

图源：蚂蚁集团公众号

声明

1、该内容为作者独立观点，不代表电商派观点或立场，文章为作者本人上传，版权归原作者所有，未经允许不得转载。
2、电商号平台仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。
3、如对本稿件有异议或投诉，请联系：info@dsb.cn