在刚刚结束的 WMT2018 国际机器翻译大赛中英翻译比赛中,云知声 NMT 团队击败国内外多个科技巨头及研究机构,在国际公认的自动评测核心指标BLEU (Bilingual Evaluation Understudy)评分中,以仅低于冠军0.7分的微弱分差位列第三。
据悉,云知声 NMT 团队组建于2017年7月,至今尚不足一年,且系首次参加 WMT 大赛。此次,得以从阿里、腾讯、微软、剑桥等强手扎堆的赛事中脱颖而出,展现出云知声作为一家新锐 AI 企业过硬的技术实力。
WMT2018国际翻译大赛官网排名
首战顶级大赛,云知声技术实力获验证
WMT,全称 Workshop on Machine Translation,是由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一,也是各大科技公司与研究机构展示自身机器翻译实力的平台。近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估。
到目前为止, WMT 大赛已成功举办13届,每一届的角逐,都异常激烈。今年的比赛,更是吸引了包括翰霍普金斯大学、爱丁堡大学、亚琛工业大学、美国空军研究实验室、马里兰大学、微软、日本情报通信研究院,以及来自国内的阿里巴巴、腾讯、南京大学、小牛翻译等数十家海内外机构参与。其中,中译英、英译中的机器翻译部分作为2017年新添加的项目,在本次大赛上尤受瞩目。
云知声 NMT 团队成员表示,此次中英翻译比赛开启后,云知声方面迅速提交了结果,初始 BLEU 评分位列第一。随后,在某巨头对其系统进行优化并重新提交结果的情况下,最终夺得15个参赛系统第三的成绩。该成员同时指出,参加 WMT 是希望与全球最顶尖的团队进行交流学习,并借助 WMT 的平台,一起推动机器翻译领域的技术进步,加速前端技术向具体场景的渗透。
“金字塔”技术研发体系,保障高人效、高产出
本次大赛,云知声 NMT 的模型主体采用业界主流的神经机器翻译模型:基于自注意力模型(self-attention)的多层编码器-解码器(encoder-decoder)结构的Transformer 框架,进行效果优化策略改进并加入全新技术方案,包括数据生成(back translation)、多形态模型融合(ensemble)、多特征重排序(rerank)等,优化翻译效果。同时还充分调动了云知声内部的计算资源优势,以满足大规模训练数据及训练模型的需求。
云知声 NMT成员指出,此次得以在 WMT 大赛上取得出色成绩,云知声“金字式”技术研发体系及基础设施平台功不可没。其中,作为“金字塔”的底层,云知声从2012年开始着手建设了国内领先的 DeepFlow 集群,该异构化硬件服务器集群可向上提供密集的计算和存储能力,为本次参赛提供了充足算力支持。据介绍,2018年该单集群规模计划将扩展至1000GPU以上,继续保持在国内外业界的领先地位。
云知声“金字塔”技术研发体系
“金字塔”的中间层是 Atlas 机器学习平台。通过该分布式机器学习并行计算平台,可内部协同共享 AI 底层研发技术成果,迁移复用至各领域应用。云知声方面透露,去年其已与厦门市政府达成合作,在厦门合作建设人工智能超算中心,预计2019年该超算中心有望达到1亿亿次/秒浮点运算能力以及100PB级的存储能力。此外,云知声近期还与国内某顶尖保险企业达成合作,基于云知声领先的人工智能技术优势,帮助后者挖掘新市场、新机会,拓展全新服务模式。
最后,云知声“金字塔”技术研发体系的顶层是 ASR、TTS、NLU、VPR、NMT 等 AI 技术的输出与应用。依托“云端芯”产品体系,可完成 AI 技术的场景落地与商业变现。从云知声公司现有业务来看,其 AI 技术已成功落地于包括家居、医疗、车载、机器人、教育等诸多领域。
云知声CEO黄伟表示,此次 NMT 团队在 WMT 大赛上首战告捷,再次证明了云知声作为 AI 行业一线玩家的技术实力,也进一步论证了 AI 企业“内功”修炼的必要性。
“在过去的六年时间里,得益于公司搭建的‘金字塔’高效技术研发体系,使得云知声不论是在核心业务,还是关键技术方面,始终保持了高于同行的快速发展态势,也令我们成为圈内少有的高人效、高产出的团队。”黄伟说道。
留言与评论(共有 0 条评论) |