google翻译技术是怎么实现的

2020-01-02 06:43:32

InsideGoogleTranslatehttp://v.youku.com/v_show/id_XMTk3NTM3Njgw.htmlGoogleTranslate是一个能够帮助你立刻翻译句子、文件甚至整个网站的免费工具。但是它究竟是怎样工作的呢?虽然看起来似乎有一屋子的双语小精灵在为我们工作,但事实上我们所有的翻译结果都来自电脑。这些电脑使用了一个名为“统计机器翻译”的程序,这只不过是一个好听的说法,意思是电脑是基于在大量语篇中找到的各种模式来得到翻译结果的。但是,我们退后一步讲。如果你想教会别人一种新的语言,你可能会首先教会他词汇和用以解释如何构造句子的语法规则。电脑也是通过同样的方式—通过参考词汇和一系列的规则—来学会一门外语的。但是语言极其复杂,而且正如每个语言学习所能告诉你的那样,所有规则都有例外。当你试图在一个电脑程序中包含所有的特例以及特例中的特例时,翻译结果的质量就开始下滑了。GoogleTranslate采取了一种不同的方法。我们并不教给电脑所有的语言规则,而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则。这些翻译结果源自图书、各种机构(如联合国)以及世界各地的网站。我们的电脑会扫描这些语篇,从中寻找在统计学上非常重要的模式——即翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式,今后它就能使用这些模式来翻译其它类似的语篇。当你数十亿次重复使用这个过程时,你就会得出数十亿种模式以及一个异常聪明的电脑程序。但是对于某些语言来说,我们能够使用到的已翻译完成的语篇非常少,因此我们的软件所探测到的模式就相对很少。这就是为什么我们的翻译质量会因语言对的不同而不同。我们知道,我们的翻译结果并不总是完美的,但是通过不断向电脑提供新的翻译语篇,我们就能让电脑更加聪明,翻译结果更加准确。所以,当你下一次使用GoogleTranslate来翻译一个句子或一个网页时,可以想象一下那些最终帮助你获得翻译结果的数以百万计的文件和数以亿计的模式——而且所有的这一切都发生在眨眼的一瞬。非常酷,不是吗?现在就去http://translate.google.com去尝试一下吧!http://translate.google.cn/about/intl/zh-CN_ALL/一些简史“打破语言的隔阂”——这是一篇Och发表在GoogleTranslate官方博客一篇文章的标题,文章介绍了一些GoogleTranslate的发展史。GoogleTranslate项目缘起2001年,当时仅提供9种语音互译的服务。尽管它采用了当时世界领先的机器翻译(Machine-Translation),但它翻译“质量不高,几年来也没有什么提高。”2003年Och加入的时候,团队决心改变这一糟糕的境况。他们发现了一种数据驱动的方法——通过收集大量网络语言资源进行辅助。但起初系统运行非常慢,1000个句子的翻译需要40个小时和1000台电脑才能完成。随后团队开始攻克速度问题。2006年,GoogleTranslate改进了“统计机器翻译”(statisticalmachinetranslation)。此后六年,团队一直集中于核心翻译质量和语言覆盖。原理GoogleTranslate的核心技术在于“统计机器翻译”,基本思想是通过对大量平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。简单来说,GoogleTranslate在生成译文时,会在大量人工翻译的文档中查找各种模型,进行合理的猜测,从而得到恰当的翻译。之所以采用“统计翻译模型”的一个重要原因就是Google的云计算架构。机器翻译需要海量的数据存储空间以及高效的运算能力,而Google拥有GoogleMapReduce(分布式计算系统)和BigTable(分布式存储系统),恰好满足了这两方面需求。由于机器操作,GoogleTranslate对某种特定语言可供分析的人工翻译文档越多,译文的质量就越高。这也解释了为何翻译的精准度会因语言的不同而有所差异。GoogleTranslate通常会提供备选翻译,当用户点击它时,Google会记下反馈。此外,用户还可以“提交一个更好的翻译”。通过这种“众包”的方式,GoogleTranslate不断改进该语境的翻译质量。当然,这种方式的缺点也是显而易见的:当足够多的人恶意纠正正确的翻译时,它就会起到反效果。语言即界面ReadWriteWeb在一篇文章中提到这样一个观点——“语言即界面”。与图形化窗口、按钮没有不同,语言是计算机界面的基础部分。当然另一方面,不同的语言即不同的界面也构成了交互的障碍。有数据表明,世界上超过99%的人们日常沟通都要靠母语,但在互联网上,英文信息占了80%,在剩下的20%中,法语占其中的大约5%,中文等其他语言信息所占比例甚微,至于其中的精华信息,更是少之又少。当人们有条件将不同的语言翻译成他们的母语时,他们就能够接触他们未及的世界。Google提供免费翻译服务的价值是显而易见的:它翻译的数据越多,翻译质量就越高,进而吸引更多用户,Google赚的钱也就越多。模糊语言的界限当然,GoogleTranslate并不完美,很低级搞笑的翻译纰漏时有出现。但这并不能阻止GoogleTranslate试图“统一界面”打造一个语言大同的梦想。在今年2月份,GoogleTranslate加入了对“世界语”(Esperanto)的支持,这是一门由波兰籍犹太人柴门霍夫博士(L.L.Zamenhof)于1887年在印欧语系的基础上创立的一种国际辅助语,旨在消除国际交往中的语言障碍,被誉为“国际普通话”。尽管时至今日,该语使用者寥寥无几。GoogleTranslate此举显然是在传递更多的象征意义——两者都是基于为语言不通的人搭建沟通的桥梁,联通这个世界。美国发明家、未来学家RayKurzweil最近在接受《赫芬顿邮报》的采访时预言,到2029年机器翻译的质量将达到人工翻译的水平。尽管对这一论断还存有争议,但不妨碍我们畅想一个语言界限被模糊的理想化世界。GoogleTranslate试图扮演整合语言信息的角色,这正是Google始终秉持的信条,也是它的产品战略。“我们畅想着,在未来世界上每个人都可以互相分享信息,无论你在哪里,说什么语言。”Och如是说。http://down.lusongsong.com/info/a/253.htmlGoogleTranslate已经有了App::ForiPhone:http://itunes.apple.com/cn/app/id414706506?mt=8ForAndroid:https://play.google.com/store/apps/details?id=com.google.android.apps.translate&feature=search_result#?t=W251bGwsMSwxLDEsImNvbS5nb29nbGUuYW5kcm9pZC5hcHBzLnRyYW5zbGF0ZSJd根据以上原理,应该是不能做成离线APP的,否则Google早就做了,你说是吧?

上一篇:2018年校招最值得加入的互联网公司有哪些
下一篇:OSX下第三方字体往往不能选择字重而是不同字重分成独立的字体为什么
设为首页 | 保存到桌面 | 网站地图 | 用户帮助 | 用户注册 | 在线投稿 | 广告投放 | 留言反馈
Copyright © 2005-2012 ™ 165163.com.All Rights Reserved. 东阳在线版权所有
地址:浙江省东阳市画水镇华阳 电话:0579-86220017 013509201192 QQ:393614973 互联网ICP备案编号:浙ICP备10046462号
温馨提示:东阳在线所有帖子仅且代表作者本人意见,均不代表本站立场;如转载请注明出东阳在线(www.165163.com),商业用途请联系本站。

东阳E网 金华公安网监
s