字节跳动火山翻译上新38个稀有语种

林月
2021-12-31 11:47

12月31日消息,据IT之家消息,近日,字节跳动旗下火山翻译官网上新了包括世界语、塔希提语、鞑靼语等在内的38个稀有语种的翻译。

目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备94个语种、8742个语向的翻译能力,整体bleu(机器翻译质量自动评估指标)达33.45,能够满足不同国家地区、不同种类的翻译需求。

format-jpg

蓝色部分为火山翻译上新的38个语种

据了解,通过采用自研的mRASP多语言模型,火山翻译仅使用一个模型就完成了上述38个语种与英文的双向互译,突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器学习的训练和服务成本。

火山翻译团队介绍称,通常情况下,训练76个语向的双语言模型需要150-200天。而相同硬件条件下,训练一个多语言模型只需要30天。对于请求量小的语种,使用mRASP模型集中服务可以大大节省计算资源,仅需半张用于深度学习训练的Tesla T4显卡就可以满足38个语言的全部翻译请求,和双语翻译所需的资源一样。

format-jpg

据悉,火山翻译通过mRASP中的对比学习和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。数据显示,火山翻译此次上新的稀有语种平均bleu值达33.36,其中,海地语翻译表现最为突出,bleu值达50.76。

目前,火山翻译拥有火山同传、机器翻译与视频翻译三大产品,支持飞书、今日头条、西瓜视频等业务的翻译需求,并通过字节跳动旗下的企业级技术服务平台火山引擎对外提供翻译服务。

format-jpg

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
12月31日消息,近期,字节跳动旗下的火山翻译官网,了包括世界语、塔希提语、鞑靼语等在内的38个稀有语种翻译。目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备94个语种、8742个语向的翻译能力,整体bleu达33.45,处于行业领先水平。
6月28日消息,今日,字节跳动火山翻译团队宣布推出LightSeq训练加速引擎,并向全球开发者开源。这是业界首款完整支持Transformer模型全流程加速的训练引擎,最快提速能达到3倍以上。也就是说,以前需要1个月的时间来训练一个超大模型,现在用了这个训练加速,只需要10天左右,生产效率大幅提升,而成本也节省下来。
12月28日,安州区·字节跳动火山引擎战略合作协议签约仪式在字节跳动北京总部举行,字节跳动火山引擎全国首个区域总部正式落户绵阳安州。
字节跳动火山引擎公司渠道负责人祝敏珂介绍了字节跳动火山引擎公司的基本情况和大理文旅直播产业园的建设构想。他说,大理是国内热门的旅游目的地,字节跳动公司的数据和平台优势能够在景区、客栈和娱乐项目的推广引流,客户群体数字统计和政府决策数据支撑等方面给予较好的支持,从而赋能大理文旅产业。
4月21日消息,在字节跳动火山引擎技术开放日字节跳动副总裁、算法和数据技术负责人杨震原表示,抖音产品名字,其实是综合了A/B测试和人为判断的结果。当时做这款短视频产品时,有很多候选名字。于是就把产品demo起成不同的名字,用不同的Logo在应用商店做A/B测试。做完测试后,抖音排名第二。大家觉得,“抖音”长期来讲更符合认知,更能体现它的形态,所以就选择了‘抖音’这个排名第二的选项。
近日,北京火山引擎科技有限公司发生工商变更,注册资本由1000万人民币增至10亿人民币,增幅达9900%。
9月19日消息,火山引擎在其举办的“V-Tech数据驱动科技峰会”宣布,火山引擎数智平台VeDI推出“AI助手”,通过接入人工智能大模型,帮助企业提升数据处理和查询分析的效率。目前,VeDI相关数据产品已启动邀测。
火山引擎是字节跳动旗下的云服务业务板块,VeDI首次全面开放了字节跳动的数据技术。
12月2日消息,火山引擎在升级为字节跳动企业级技术服务业务板块之后,今日首次亮相并发布全系云产品,包括云基础、视频及内容分发、数据中台、开发中台、人工智能等五大类、共计78项服务。同时,火山引擎宣布推出“万有计划”,目标是在未来3年联合1000家合作伙伴,服务10万家客户实现数字化转型。