当前位置:首页 > 公众号精选 > 物联传媒
[导读]大数据文摘  陈胜者,阳城人也,字涉。吴广者,阳夏人也,字叔。相信不少人还记得中学的时候全文背诵《陈涉世家》的痛苦,当然还有考试的时候让你翻译某一句名言,像是“燕雀安知鸿鹄之志哉”,或者“天下苦秦久矣。吾闻二世少子也,不当立,当立者乃公子扶苏”。如今,随着AI...


本文来源:大数据文摘

  
陈胜者,阳城人也 ,字涉。吴广者,阳夏人也,字叔。 相信不少人还记得中学的时候全文背诵《陈涉世家》的痛苦,当然还有考试的时候让你翻译某一句名言,像是“燕雀安知鸿鹄之志哉”,或者“天下苦秦久矣。吾闻二世少子也,不当立,当立者乃公子扶苏”。 如今,随着AI技术的成熟,机器也逐渐在学习如何以人类的方式行动和思考。 既然如此,我们为何不考考它,看看在AI眼中,《陈涉世家》到底是个什么故事。 最近,B站上一位叫做“鹰目大人”的阿婆主就用谷歌翻译对AI进行了一次随堂测验,只不过它的表现嘛,就见仁见智了。


比如,AI就把这句著名的“苟富贵,勿相忘”就翻译成了“没有钱的人,总是会被遗忘”

 

   “燕雀焉知鸿鹄之志”在AI看来竟然是,“蝎子给了我一个热烈的拥抱”???

  整个过程,文摘菌一边黑人问号脸一边笑到拍桌子。

有网友就指出,这波反讽竟然“翻译出了本质”

  还有网友“太喜欢了所以拼了一首诗”,大家可以猜猜每句话对应到的原文是什么?

 


  然后,再来对对答案,看看整本《陈涉世家》都被AI翻译成了什么样子?

机器翻译为何如此困难?

其实不管是语种互译,还是古文翻译,都是机器翻译的类别之一。 但是,如果机器翻译翻车的情况持续发生,我们还能相信它吗? 先别急,我们从NMT(neural machine translation,神经网络机器翻译)的诞生开始讲起,看看机器翻译到底是个什么东西。 2013年,Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。 这一研究成果的发布可以说是标志着NMT的诞生,虽然在那之后也有不少研究者进行改进,但是仍然缺乏对模型的理解。比如,经常出现的问题包括但不限于训练和解码过程缓慢;对同一个词的翻译风格不一致;翻译结果存在超出词汇表(out-of-vocabulary)的问题;黑箱的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。

 


NMT和SMT对比

总的来说:不确定性是翻译中的一个核心挑战。 知己知彼百战百胜,想要根除这种不确定性,我们还需要知道它的来源。 在一篇论文中作者指出,在构建翻译的模型的时候,基本上有两种不确定性,一种是任务本身固有的不确定性,另一种是数据收集过程中存在的不确定性 所谓内在的不确定性,是指不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”“of”或“their”是可选择的。 除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。 而外在的不确定性,则是因为系统,特别是模型,需要大量的训练数据才能表现良好。为了节省时间和精力,使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。 在一些加了copy机制的翻译模型中,对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现,即使copy机制很小,也能对模型预测产生较大的影响。 论文下载地址: https://arxiv.org/pdf/1803.00047.pdf

机器翻译频繁翻车,微信谷歌无一幸免

去年3月,微信翻译的频繁翻车事件得到了人们的关注,机器翻译的不确定性同时也被更多人所了解。 目前,机器翻译领域主要使用的NMT架构都差不多,一方面问题出在解码器语言模型,使用的语料让它学习到了这些最大概率出现的词。微信团队在处理的过程中似乎没有对“特殊情况”进行处理,于是我们就能看到这样的翻译发生:

  

  如果添加了特殊词的copy机制,完全可以把无法翻译的单词不进行翻译,直接copy过去。也就是说,一个聪明的模型应该知道哪些应该翻译,哪些不应该翻译。 随后,微信也针对这一问题进行了修复,对于敏感词“caixukun”或者句式“you are so……”进行原句返回。

  

  除了解码器语言模型外,问题可能更多出现在语料库上,现在业界所做的机器翻译很大程度上靠语料“怼”,只要平行语料数量足够多,质量足够好, 一般的系统也可以训练出很好的结果。 不过,如果训练语料多来自电影字幕、多语言会议等材料,那么模型最终呈现的翻译内容也会相对应比较“活泼”和“口语化”。面对库中不存在的词,比如caixunkun,算法会自动匹配最经常出现,或者在同语境下最容易匹配的内容,比如形容词“帅哥”或“傻蛋”。 当然除了微信,被业界视为先驱的谷歌也发生过类似的翻车案例。 此前就有Reddit网友指出,谷歌翻译在学习过程中可能受到了输入来源的影响,将一些意味不明的语句翻译成了如圣经一般的语言。比如这个:

  

英文大意为:世界末日时钟在12点3分钟,我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越接近末日和耶稣的回归。 哈佛大学助理教授、研究自然语言处理和计算机翻译的Andrew Rush认为,这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。他表示,在神经机器翻译中,系统训练用了一种语言的大量文本来和另一种语言进行相应翻译,以在两者之间创建模型。但当输入的是无意义内容时,系统就会出现“幻觉性”的输出结果。 在去年AI Time的一次辩论中,中科院自动化研究所研究员宗成庆就表示,机器翻译近几年的进步确实很大,但是其需要基于场景和任务。机器翻译在一些场景下确实能帮助人,比如旅游问路,但是在某些领域,比如高层次的翻译,要对机器翻译寄予太多的希望还为时过早。 东北大学计算机学院教授朱靖波根据自己的经验列举出好的机器翻译系统需要的三个东西:一是扩大训练数据规模,提高品质;二是不断创新技术;三是根据问题不断打磨,三者缺一不可。 看来,机器翻译未来还有很长一段路要走啊!



免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

业内消息,近日日本官方表示计划扩大对与半导体或量子计算相关的四项技术的出口限制,这是全球管制战略技术出口的最新举措。该限制措施向所有国家/地区(包括最受惠的贸易伙伴韩国、新加坡和中国台湾)的此类货物将需要出口管制官员的批...

关键字: 半导体 出口管制 商务部 GAA

业内消息,日前中国大陆智能手机品牌大厂华为新款旗舰机Pura70日前重磅上市,掀起一股抢购风潮,一开卖就秒杀,各大渠道均呈现缺货状态,甚至出现黄牛乱象。近期许多海外网站陆续出具拆解报告,赫然发现Pura70除最高端机型外...

关键字: 华为 华为Pura 70

业内消息,近日台积电在美国亚利桑那州的新扩张因其无数的工人待遇恶劣的例子而受到工程师和业内人士的严重关注。当地报告称,该公司在其中国台湾工厂的长期加班文化、残酷的管理风格和对其工程师的不良待遇已经不适当地转移到美国工人上...

关键字: 台积电

Spotify和苹果公司在欧洲再次因为佣金问题发生冲突。苹果公司拒绝了Spotify在欧洲新规生效之后的第2次更新,对此Spotify表达了强烈不满。苹果公司于4月6日响应欧盟近期提出的“限制导流”(anti-steer...

关键字: Spotify 苹果

业内消息,近日韩国存储芯片巨头SK 海力士宣布,为应对用于 AI 的半导体需求剧增,决定扩充 AI 基础设施(Infra)的核心产品即 HBM 等新一代 DRAM 的生产能力(Capacity) 。

关键字: SK海力士 DRAM

京元电子在重大讯息说明会中宣布,将出售持有苏州子公司京隆科技 92.1619% 的股权,预估交易金额约 48.85 亿人民币,将于第三季度完成交易,届时将退出中国大陆半导体制造业务。

关键字: 半导体制造 半导体封测 封装测试 京元电子

LED驱动模块RSC6218A 5W-18W迷你高效驱动电源应用,小功率、小体积、高效率

关键字: LED驱动模块 驱动电源应用 LED电源芯片

业内消息,近日台积电在北美技术研讨会上宣布,正在研发 CoWoS 封装技术的下个版本,可以让系统级封装(SiP)尺寸增大两倍以上,实现 120x120mm 的超大封装,功耗可以达到千瓦级别。

关键字: CoWoS 台积电 封装

据外媒报道,字节正在内部探索出售TikTok美国业务多数股权,并援引内部人士披露的信息称 “沃尔玛或为最理想买家”。报道还称,讨论中的一种情况是字节出售美国50%以上TikTok股份,但保留少数股权。

关键字: 字节跳动 TikTok

业内消息,HMD 正在计划重启一些经典的诺基亚功能手机。今年 3 月初,该公司预告了将于 5 月发布的一款功能手机。现在该机的身份已经曝光,新款诺基亚 3210 的谍照已经泄露,展现了新机部分新特性。

关键字: 诺基亚 功能机 HMD
关闭
关闭