您现在的位置:广东省翻译协会网站>> 译界资讯>> 国内>>正文内容

第十二届机器翻译研讨会成果集萃

  第十二届全国机器翻译研讨会(CWMT2016)于上周末在美丽的新疆落下帷幕。这次研讨会由中国中文信息学会主办,中国科学院新疆理化技术研究所承办。云集了来自清华大学、哈尔滨工业大学、东北大学、南京大学等高校,中科院计算技术研究所、自动化研究所、软件技术研究所等科研院所,以及微软、Facebook等多家企业的机器翻译领域知名专家、学者。

 

 

  会上特邀报告都非常的精彩,来自语智云帆的美女工程师任晓娜参与了会议,还有幸加入了朱靖波老师直播的微信群,听着报告的同时,还能看到朱老师犀利的点评及其他专家们的讨论。


  (1)来自Facebook的首席研究科学家Fei Huang介绍了机器翻译在全球最大社交媒体中的应用情况,重点关注了自动评估相关工作,除了采用BLEU值之外,还用到了User ratings,来训练可信度model自动学习,后期还加入了用户反馈机制,这与我们公司目前推出的“试译宝”(译文自动评估产品)类似,用户互动这一环节,也是我们目前正在开发的新功能。


  (2)National Research Council Canada的研究主管陈博兴介绍了机器翻译领域自适应性数据选择的问题,提到了训练语料中句对齐噪声30%以下对SMT的BLEU值影响小于1个点,而对NMT的BLEU值影响却比较大。报告中还介绍了CNN与N-gram的对比分析、训练数据量对NMT和SMT模型的影响等,实验数据非常充分。


  (3)清华大学刘洋老师首先非常清晰的介绍了机器翻译发展的历史,分析了SMT的优缺点,各种方法与NMT实验结果对比分析,更重要的是总结了NMT最新的八大前沿进展,并给出了NMT面临的挑战,非常精彩,值得会后深入学习。


  (4)微软李沐老师报告中提到,前几年SMT进展不大,NMT让MT重新焕发活力,并且实验结果显示,1kw语料训练的NMT比8kw训练的SMT提高2~4个BLEU值,提升效果很明显。针对这个NMT问题,各个专家提出了自己的看法,有的认为是“黑盒子”“无知者无畏”,而有的专家却认为“可理解性问题迟早会解决”。接着就是微软刘树杰老师介绍注意力模型的改进,只用了50w句对,取得了非常明显的效果。


  (5)苏州大学熊得意老师介绍了语义驱动的机器翻译,对比分析了基于句法的机器翻译和语义驱动的机器翻译,重点介绍的技术是跨语言跨层次语义相似度计算的相关工作,引入谓元结构信息、动宾结构、词汇语义约束,改善机器翻译,并提出目前NMT除了小词汇量问题,对长句子翻译存在不足,同时也提到NMT没有用显性的句法语义知识,但自动学习利用隐性的语义知识,创新性的提出了变分神经网络机器翻译模型。最后朱老师表示喜欢熊得意老师的工作,引入更多语法语义知识改善MT技术,也是朱老师团队正在努力的方向。


  (6)东北大学的肖桐老师介绍了搭建更好的机器翻译系统的常用手法有增大数据量、更强的语言模型及引入先验知识等,报告中重点介绍了如何在SMT中引入先验知识:a. 将句法信息引入机器翻译,同时抽取句法规则和层次短语规则进行融合;b. 将句子骨架信息引入机器翻译,有机融合基于词串的模型和基于句法树的模型;c. 在训练中考虑剪枝等因素。感触最深的就是最后除了感谢合作伙伴和导师之外,重点感谢了他的爱人,非常感人。


  (7)中科院自动化所的张家俊老师介绍了他们最新的研究成果,神经网络机器翻译中的集外词处理方法。a. “替换”阶段,采用词典进行后处理替换的方法,寻找低频词的高频词替身,通过词语替换保持句子的语义结构;b. 替换后的数据用于神经网络翻译模型训练;c. “恢复”阶段,采用基于字符的神经网络翻译方法。实验结果显示此简单的方法可以大幅度提升NMT的译文质量。此方法是一个简单有效,却非常细致的工作。


【字体: 】【收藏】【打印文章
上一篇:《梁宗岱译集》首发 《宗岱在广外》亮相上海书展
下一篇:王华树:大数据时代的翻译技术发展及其启示