阿里云通义开源首个推理步骤评估标准

2025-01-16 14:38:21

1月16日消息，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型；在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。

[查看原文]

更加详细情况，请关注本站最新动态。

7X24h快讯

百度地图V21版本发布升级为“智驾级导航”
3小时前
1688推出五大举措为出口受阻企业纾困解难
3小时前
小米成立芯片平台部？王化回应：一直存在
3小时前
小红书上独立开发者超5万
3小时前
英国皇家邮政与NewRiver地产合作将在英国多地部署智能快递柜
3小时前
众信旅游发布《2025五一出游趋势报告》
3小时前
淘宝天猫启动“外贸精选”专项六大举措助外贸商家“外转内”
4小时前
刘强东内部讲话：京东外卖利润率不允许高于5%
4小时前
中国跨境电商App“敦煌网”苹果应用商店排名升至第二
4小时前
快手盖坤：可灵AI全系模型进入2.0时代
5小时前