Google翻譯內核升級 稱誤差再降超55%

winniewei 提交于 周六, 05/09/2020
Google翻譯內核升級 稱誤差再降超55%

近期,Google翻譯悄然升級了其翻譯內核。據Google官方提供的數據顯示,Google翻譯搭載的Google的神經機器翻譯(GNMT:Google Neural Machine Translation)系統使用了當前最先進的訓練技術,因而提升了機器翻譯水平,將翻譯誤差再度降低了55%-85%。

Google展示的翻譯模型質量

Google展示的翻譯模型質量

十多年前,Google發布了Google翻譯,早年基于短語的統計機器翻譯,會將輸入句子分解成詞和短語,然后對它們進行獨立翻譯。這種翻譯方式的劣勢非常明顯:句子中原本完整的信息被碎片化,無法連貫地進行表達。而這種現象在英中互譯的情況下顯得尤其明顯。

而Google神經機器翻譯則將輸入的句子作為一個整體翻譯。

以中英翻譯為例,Google神經機器翻譯首先將這句中文的詞編碼成一個向量列表,其中每個向量都表示了到目前為止所有被讀取到的詞的含義(編碼器“Encoder”)。讀取完整個句子,解碼器就開始工作——一次生成英語句子的一個詞(解碼器“Decoder”)。

上圖展示了Google神經機器翻譯的中英翻譯原理

上圖展示了Google神經機器翻譯的中英翻譯原理

為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關編碼的中文向量的權重分布。

在被首次提出時,神經機器翻譯系統在中等規模的數據集上就與基于短語的翻譯系統水平相當。

現在,Google方面表示,通過讓神經機器翻譯戰勝在非常大型的數據集上工作的許多挑戰,打造了在速度和準確度上都更好翻譯的系統。

目前,Google神經機器翻譯系統已投入到了中文-英語的翻譯中。現在,移動版和網頁版的Google翻譯的中英翻譯已完全使用神經機器翻譯——每天大約1800萬條翻譯。

有經過大型數據集考驗的Google神經機器翻譯系統加持,最新的Google翻譯效果究竟如何呢?

我們做了一個簡單的比較測試。當然,還是在中英翻譯場景下。

測試場景:PC端 Google翻譯網頁版

隨機選擇了一則英文消息,原文如下:

Since COVID-19 began, we’ve heard from our retail and brand manufacturing partners that they’re hungry for more insights on how consumer interests are changing, given fluctuations in consumer demand. We see these changes reflected in how people are searching on Google. Last month, there were spikes in search interest for household supplies and jigsaw puzzles as people spent more time at home. This month we’ve seen surging interest for sewing machines and baking materials in the U.S., and tetherball sets and chalk in the United Kingdom and Australia.

Businesses are using a variety of resources to understand changing consumer interests—including Google Trends, social listening, surveys, and their own data—in order to help make decisions on the fly. But if they don’t know what to look for, there isn’t an easy way to understand which product categories are gaining in popularity, and might pose an OPPOrtunity.

That’s why we’re launching a rising retail categories tool on Think with Google. It Surfaces fast-growing, product-related categories in Google Search, the locations where they’re growing, and the queries associated with them. This is the first time we’ve provided this type of insight on the product categories that people are searching for.

舊版Google翻譯給出的英譯中結果:

Google翻譯內核升級 稱誤差再降超55%

升級后Google翻譯給出的英譯中新結果,紅色標記字部分為與舊翻譯結果的不同地方。新版翻譯具體如下:

Google翻譯內核升級 稱誤差再降超55%

對比兩段翻譯結果,可以看出區別還挺大的。整體而言,新版翻譯結果中標紅文字的表述明顯更符合漢語的語法和表述習慣。

另外,最后一段的翻譯結果優化則更為明顯,對Google產品名稱“Think with Google”進行了準確識別,避免了亂翻譯的尷尬。

確實更智能啦!

來源:TechWeb

相關文章

Digi-Key