首届小牛翻译论坛圆满落幕聚焦机器翻译发展新趋势
2021年7月15日上午,首届小牛翻译论坛(NiuTrans Forum 2021)圆满结束。论坛历时3.5小时,9位国内知名专家学者、产业精英分享了学术界和产业界相关经验、为加速机器翻译应用场景落地提供宝贵意见。会议以在线形式在腾讯会议、Bilibili、微博、译直播四个平台面向全球直播,国内外1万余人观看了本次论坛直播。
本次会议的特邀嘉宾为:华为2021实验室文本机器翻译实验室主任杨浩博士、科大讯飞研究院机器翻译负责人张为泰博士、腾讯AI Lab高级研究员黄国平博士、金山集团副总裁amp;人工智能研究院院长李长亮博士、上海专信译腾总经理李进先生、昆明理工大学副教授毛存礼博士、澳门大学副教授黄辉博士、南京大学副教授黄书剑博士、东北大学计算机学院教授肖桐博士。本次会议由小牛翻译总裁张春良主持。
本次论坛涵盖机器翻译技术/产业应用报告与圆桌研讨两部分。今年论坛的主题为机器翻译前沿技术及产业应用,参会嘉宾就机器翻译质量评估、模型压缩与解码加速、翻译模型学习规律、非自回归机器翻译、语音翻译、交互式机器翻译等热点话题做了主题报告。
精彩报告:
东北大学肖桐博士首先为大家分享了题为机器翻译模型压缩与加速:从方法到应用的精彩报告。该报告介绍了机器翻译模型压缩与加速方面的最新进展,包括模型压缩的背景、主流方法和实际应用。以Transformer为例,可以通过共享相邻层之间注意力权重,减少注意力操作的执行次数,从而提升模型效率。他指出,翻译过程中解码器部分的计算占据了大部分时间,因此可以对解码器的注意力操作进行压缩。此外,深层编码器-浅层解码器的模型结构,这样的组合能够最大化保留翻译模型的精度,并极大地加速翻译过程。最后,肖桐博士表示以上方法可以将模型方便地部署在翻译机和手机上,不需要成本高昂的云服务器,并且几乎不会破坏翻译品质。
华为2012实验室杨浩博士分享了题为神经网络机器翻译质量评估研究与实践的精彩报告。针对为什么要做神经网络机器翻译质量评估(Quality Estimation)的问题,他指出,技术驱动方面神经网络机器翻译(NMT)还不完善,同时流程驱动方面,翻译记忆库(TM)-机器翻译(MT)-质量评估(QE)已经成为主流。随后,他介绍了业界神经网络机器翻译质量评估模型的重要研究方向,包括预训练语言模型(Pre-trained Language Model) 提升特征矢量(Feature Vectors)、基于预训练模型进行带噪声的数据增强等。以及华为翻译的QE实践PEAQE,其主要利用预训练神经网络机器翻译(Pre-trained NMT)、基于Transformer的特征增强、APE辅助QE等方法提升模型性能及准确率。最后,杨浩博士提到了多模态、多语言及知识融合的发展方向,并展望QE可以应用于更准确、多任务、自迁移、知识性、可解释的AI服务。
澳门大学黄辉博士以探索翻译模型的学习规律与训练策略为题,主要讲述了面向NMT的课程学习方法。首先他指出,NMT训练需要使用海量的数据,目前的训练方法通常是随机采样来进行学习。他指出,在NMT中课程学习将模型的训练过程分为多个阶段,按照从易到难的方式进行学习,简化了训练过程。在NMT中应用课程学习的三个关键问题分别为:如何定义句子难度、如何设计课程以及制定学习进度。之后,他介绍了团队近期的三个工作,分别基于模型不确定性、向量范数以及自步学习的思想。这三种方法均有效提高了模型的性能,加快了模型的收敛速度。最后,黄辉博士提出未来的一个研究方向,是在模型训练初期使用较为简单的网络进行学习,然后不断增加模型容量,并利用记忆模块提升模型学习能力,值得我们思考研究。
科大讯飞AI研究院张为泰博士作了题为科大讯飞语音翻译技术及应用最新进展的精彩报告。报告主要包括三个内容,分别是从中英翻译拓展到多语种翻译;从口语交传翻译到同声传译;从日常交流场景到专业行业领域。他在报告中指出,多语翻译往面临着多语分析研究、专家知识积累不足、多语种语音语言训练数据稀缺的等问题,解决的思路包括基于人机耦合的数据标注平台、多语种端到端统一建模框架和无监督/弱监督数据增强训练。张为泰博士指出,口语场景交传翻译主要通过级联的方式解决,实时字幕同传则通过基于语篇约束解码的流式语音字幕同传方法解决。而实时语音同传还面临一些问题如:英文比中文长导致合成语音跟不上原声;相比于字幕同传,同声传译不能修改前文错误,这是一个挑战,面对专业领域问题,使用基于多层次知识融合的精细化建模技术翻译效果会更好。
南京大学黄书剑博士作了题为基于协同关系的费自回归生成的精彩报告。报告中他分享了其团队近期在非自回归机器翻译(NAT)任务上的研究进展,通过建模协同关系来改善NAT的性能。本次分享主要涵盖了三部分研究工作:通过隐变量模型建模离散类别信息;通过位置关系预测单词间的关系以及引入依存句法结构建模目标端的关联。他认为文本中协同关系大致可以概括为两类:语义分配和词汇生成。黄书剑博士表示,使用隐变量建模少量离散类别信息,可以更好的用于辅助目标译文的生成。这样的隐变量可以通过条件随机场(CRF)进行更好的协同,并具有更好的可解释性。他们在公开数据集上验证了方法的有效性。随后,黄书剑博士分享了位置关系预测与目标端的依存句法结构建模两部分工作,并对NAT的发展进行了总结与展望。
腾讯AI Lab黄国平博士以从理论到产品:交互翻译落地之旅为题,分享的一个关于交互式机器翻译的报告,报告以从理论到产品角度展现了一种新的产品形态的落地过程。他从交互式翻译技术、质量评价、翻译工具的应用和产品形态等多个方向介绍了目前交互式翻译技术的现状:在技术层面,交互式翻译主要采用翻译输入法、约束解码、动态提示、整合翻译记忆等技术,通过接受用户提供的译文片段及时学习并反馈给用户翻译辅助信息;在交互式翻译的质量评价中,统计用户修改量、敲键数、翻译时间以及人工评价的翻译质量都是需要考虑的评价指标;在未来的产品应用中,SaaS与客户端是交互式翻译技术的主要产品形态。黄国平博士他在报告中指出,通过交互翻译去进一步模糊自动机器翻译和人工翻译的边界,是交互式翻译技术的终极目标。
在主题报告之后,会议进入第二阶段Panel环节,由东北大学肖桐博士主持,9位特邀嘉宾参与了讨论。在此期间,与会人员针对哪些技术可能会带来机器翻译应用新的突破、会出现颠覆性的突破吗、哪些机器翻译产品或者应用技术是最有潜(钱)力的、机器翻译哪些应用场景最有前(钱)景等问题进行了充分交流和探讨。(panel环节问答及在线答疑等干货内容详见后续小牛翻译论坛报道2)
本次论坛由小牛翻译主办,东北大学自然语言处理实验室协办,旨在构建机器翻译学术界与产业界的交流平台,促进机器翻译产学研共同发展。本次会议的成功举办不但为全球从事机器翻译研发的各界人员提供了一次科学前沿分享盛宴,更进一步促进了机器翻译技术与多个产业融合的步伐,希望机器翻译这项技术会在更多领域探索更多可能,赋能更多产业。
未来,小牛翻译将持续发力,做出来一系列的线上线下活动,为推动我国机器翻译这一关乎国家战略的核心技术发展贡献绵薄之力。
2021年7月15日上午,首届小牛翻译论坛(NiuTrans Forum 2021)圆满结束。论坛历时3.5小时,9位国内知名专家学者、产业精英分享了学术界和产业界相关经验、为加速机器翻译应用场景落地提供宝贵意见。会议以在线形式在腾讯会议、Bilibili、微博、译直播四个平台面向全球直播,国内外1万余人观看了本次论坛直播。
本次会议的特邀嘉宾为:华为2021实验室文本机器翻译实验室主任杨浩博士、科大讯飞研究院机器翻译负责人张为泰博士、腾讯AI Lab高级研究员黄国平博士、金山集团副总裁amp;人工智能研究院院长李长亮博士、上海专信译腾总经理李进先生、昆明理工大学副教授毛存礼博士、澳门大学副教授黄辉博士、南京大学副教授黄书剑博士、东北大学计算机学院教授肖桐博士。本次会议由小牛翻译总裁张春良主持。
本次论坛涵盖机器翻译技术/产业应用报告与圆桌研讨两部分。今年论坛的主题为机器翻译前沿技术及产业应用,参会嘉宾就机器翻译质量评估、模型压缩与解码加速、翻译模型学习规律、非自回归机器翻译、语音翻译、交互式机器翻译等热点话题做了主题报告。
精彩报告:
东北大学肖桐博士首先为大家分享了题为机器翻译模型压缩与加速:从方法到应用的精彩报告。该报告介绍了机器翻译模型压缩与加速方面的最新进展,包括模型压缩的背景、主流方法和实际应用。以Transformer为例,可以通过共享相邻层之间注意力权重,减少注意力操作的执行次数,从而提升模型效率。他指出,翻译过程中解码器部分的计算占据了大部分时间,因此可以对解码器的注意力操作进行压缩。此外,深层编码器-浅层解码器的模型结构,这样的组合能够最大化保留翻译模型的精度,并极大地加速翻译过程。最后,肖桐博士表示以上方法可以将模型方便地部署在翻译机和手机上,不需要成本高昂的云服务器,并且几乎不会破坏翻译品质。
华为2012实验室杨浩博士分享了题为神经网络机器翻译质量评估研究与实践的精彩报告。针对为什么要做神经网络机器翻译质量评估(Quality Estimation)的问题,他指出,技术驱动方面神经网络机器翻译(NMT)还不完善,同时流程驱动方面,翻译记忆库(TM)-机器翻译(MT)-质量评估(QE)已经成为主流。随后,他介绍了业界神经网络机器翻译质量评估模型的重要研究方向,包括预训练语言模型(Pre-trained Language Model) 提升特征矢量(Feature Vectors)、基于预训练模型进行带噪声的数据增强等。以及华为翻译的QE实践PEAQE,其主要利用预训练神经网络机器翻译(Pre-trained NMT)、基于Transformer的特征增强、APE辅助QE等方法提升模型性能及准确率。最后,杨浩博士提到了多模态、多语言及知识融合的发展方向,并展望QE可以应用于更准确、多任务、自迁移、知识性、可解释的AI服务。
澳门大学黄辉博士以探索翻译模型的学习规律与训练策略为题,主要讲述了面向NMT的课程学习方法。首先他指出,NMT训练需要使用海量的数据,目前的训练方法通常是随机采样来进行学习。他指出,在NMT中课程学习将模型的训练过程分为多个阶段,按照从易到难的方式进行学习,简化了训练过程。在NMT中应用课程学习的三个关键问题分别为:如何定义句子难度、如何设计课程以及制定学习进度。之后,他介绍了团队近期的三个工作,分别基于模型不确定性、向量范数以及自步学习的思想。这三种方法均有效提高了模型的性能,加快了模型的收敛速度。最后,黄辉博士提出未来的一个研究方向,是在模型训练初期使用较为简单的网络进行学习,然后不断增加模型容量,并利用记忆模块提升模型学习能力,值得我们思考研究。
科大讯飞AI研究院张为泰博士作了题为科大讯飞语音翻译技术及应用最新进展的精彩报告。报告主要包括三个内容,分别是从中英翻译拓展到多语种翻译;从口语交传翻译到同声传译;从日常交流场景到专业行业领域。他在报告中指出,多语翻译往面临着多语分析研究、专家知识积累不足、多语种语音语言训练数据稀缺的等问题,解决的思路包括基于人机耦合的数据标注平台、多语种端到端统一建模框架和无监督/弱监督数据增强训练。张为泰博士指出,口语场景交传翻译主要通过级联的方式解决,实时字幕同传则通过基于语篇约束解码的流式语音字幕同传方法解决。而实时语音同传还面临一些问题如:英文比中文长导致合成语音跟不上原声;相比于字幕同传,同声传译不能修改前文错误,这是一个挑战,面对专业领域问题,使用基于多层次知识融合的精细化建模技术翻译效果会更好。
南京大学黄书剑博士作了题为基于协同关系的费自回归生成的精彩报告。报告中他分享了其团队近期在非自回归机器翻译(NAT)任务上的研究进展,通过建模协同关系来改善NAT的性能。本次分享主要涵盖了三部分研究工作:通过隐变量模型建模离散类别信息;通过位置关系预测单词间的关系以及引入依存句法结构建模目标端的关联。他认为文本中协同关系大致可以概括为两类:语义分配和词汇生成。黄书剑博士表示,使用隐变量建模少量离散类别信息,可以更好的用于辅助目标译文的生成。这样的隐变量可以通过条件随机场(CRF)进行更好的协同,并具有更好的可解释性。他们在公开数据集上验证了方法的有效性。随后,黄书剑博士分享了位置关系预测与目标端的依存句法结构建模两部分工作,并对NAT的发展进行了总结与展望。
腾讯AI Lab黄国平博士以从理论到产品:交互翻译落地之旅为题,分享的一个关于交互式机器翻译的报告,报告以从理论到产品角度展现了一种新的产品形态的落地过程。他从交互式翻译技术、质量评价、翻译工具的应用和产品形态等多个方向介绍了目前交互式翻译技术的现状:在技术层面,交互式翻译主要采用翻译输入法、约束解码、动态提示、整合翻译记忆等技术,通过接受用户提供的译文片段及时学习并反馈给用户翻译辅助信息;在交互式翻译的质量评价中,统计用户修改量、敲键数、翻译时间以及人工评价的翻译质量都是需要考虑的评价指标;在未来的产品应用中,SaaS与客户端是交互式翻译技术的主要产品形态。黄国平博士他在报告中指出,通过交互翻译去进一步模糊自动机器翻译和人工翻译的边界,是交互式翻译技术的终极目标。
在主题报告之后,会议进入第二阶段Panel环节,由东北大学肖桐博士主持,9位特邀嘉宾参与了讨论。在此期间,与会人员针对哪些技术可能会带来机器翻译应用新的突破、会出现颠覆性的突破吗、哪些机器翻译产品或者应用技术是最有潜(钱)力的、机器翻译哪些应用场景最有前(钱)景等问题进行了充分交流和探讨。(panel环节问答及在线答疑等干货内容详见后续小牛翻译论坛报道2)
本次论坛由小牛翻译主办,东北大学自然语言处理实验室协办,旨在构建机器翻译学术界与产业界的交流平台,促进机器翻译产学研共同发展。本次会议的成功举办不但为全球从事机器翻译研发的各界人员提供了一次科学前沿分享盛宴,更进一步促进了机器翻译技术与多个产业融合的步伐,希望机器翻译这项技术会在更多领域探索更多可能,赋能更多产业。
未来,小牛翻译将持续发力,做出来一系列的线上线下活动,为推动我国机器翻译这一关乎国家战略的核心技术发展贡献绵薄之力。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。