翻譯語(yǔ)種
翻譯工具如何用技術(shù)搞好英俄翻譯?
鉆研背景
試驗(yàn)
在NMT的解碼階段,每一個(gè)解碼步驟分別預(yù)測(cè)詞干和詞尾。詞干的生成和NMT原有的網(wǎng)絡(luò)結(jié)構(gòu)分歧。額外的,應(yīng)用以后step生成的詞干、以后decoder端的hidden state和源端的source context信息,經(jīng)過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(Feedforwardneural network)生成以后step的詞尾。網(wǎng)絡(luò)結(jié)構(gòu)如下圖:
測(cè)試集包括商品的題目(Title)、概況(Deion)和用戶評(píng)論(Comment)內(nèi)容,示例如下:
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯
咱們提出了一種簡(jiǎn)略、有效的方法來(lái)提高指標(biāo)端是狀態(tài)豐富言語(yǔ)(例如“英-俄”)的NMT系統(tǒng)的翻譯品質(zhì)。在解碼階段的每一個(gè)步驟中,首學(xué)生成詞干,然后生成詞尾。咱們?cè)趦煞NNMT模型(RNN-based NMT和Transformer)上,和基于子詞(subword)和字符(character)的方法停止了對(duì)比,證實(shí)了方法的有效性。咱們利用了大規(guī)模(640萬(wàn))和超大規(guī)模(6000萬(wàn))的語(yǔ)料,在舊事和電子商務(wù)兩個(gè)畛域上進(jìn)一步這種方法可能帶來(lái)鞏固的降職。在咱們的任務(wù)中,詞尾在NMT中初次被專門(mén)地建模。前往搜狐,查看更多
并且隨著詞表的增大,預(yù)測(cè)的難度也會(huì)相應(yīng)地添加?;谠~(word)的NMT系統(tǒng)常常會(huì)遭逢“未登錄詞”(Out of vocabulary, OOV)的成績(jī),順便是指標(biāo)端是一個(gè)狀態(tài)豐富(Morphologically Rich)的言語(yǔ)時(shí),這個(gè)成績(jī)會(huì)愈加重大。以“英-俄”翻譯為例,俄語(yǔ)是一種狀態(tài)十分豐富的言語(yǔ),一個(gè)4-6萬(wàn)的詞表往往不能籠罩俄語(yǔ)端的一切詞,會(huì)有很多OOV產(chǎn)生。OOV的出現(xiàn)對(duì)翻譯品質(zhì)的影響是比較大的。
俄語(yǔ)的詞干和詞尾
經(jīng)過(guò)這種模式,數(shù)據(jù)稀疏成績(jī)會(huì)失去緩解,由于詞干的種類會(huì)分明小于詞的種類,而詞尾的種類只要幾百種。
一些翻譯結(jié)果的例子:
摘要
基于子詞(subword)的和基于字符(character)的這兩種方法,從調(diào)整翻譯粒度的角度出發(fā)來(lái)協(xié)助緩解指標(biāo)端狀態(tài)豐富言語(yǔ)的翻譯成績(jī)。一種基于子詞的方法應(yīng)用BPE(Byte Pari Encoding)算法來(lái)生成一個(gè)詞匯表。語(yǔ)料中常常出現(xiàn)的詞會(huì)被保留在詞匯表中,其余的不太常見(jiàn)的詞則會(huì)被拆分成一些子詞。因?yàn)槎鄶?shù)量的子詞就可能拼成全副不常見(jiàn)的詞,因此NMT的詞表中只保留常見(jiàn)詞和這些子詞就可能了。
對(duì)于俄語(yǔ)這種狀態(tài)豐富的言語(yǔ),詞干(stem)的個(gè)數(shù)會(huì)比詞的個(gè)數(shù)少很多,因此很人造的,咱們會(huì)想到要對(duì)詞干和詞尾(suffix)分別停止建模。咱們?cè)O(shè)計(jì)完成了一種方法,在解碼時(shí)每一個(gè)解碼步驟(decoding step)中,分別預(yù)測(cè)詞干和詞尾。訓(xùn)練階段,指標(biāo)言語(yǔ)端會(huì)利用兩個(gè)序列,分別是詞干序列和詞尾序列。詞干序列和詞尾序列的生成進(jìn)程如下圖所示:
俄語(yǔ)是一種狀態(tài)豐富的言語(yǔ),單復(fù)數(shù)(number)、格(case)、陰陽(yáng)性(gender)都會(huì)影響詞的狀態(tài)。以名詞“ball”為例,“ball”是一個(gè)中性詞,因此不會(huì)隨陰陽(yáng)性的變化而變化,但當(dāng)單復(fù)數(shù)、格變化時(shí),會(huì)產(chǎn)生如下多種狀態(tài):
阿里妹導(dǎo)讀:俄語(yǔ)站是AliExpress最大的國(guó)度分站,每天有大量的商品信息需求由英國(guó)翻譯成俄文,英俄翻譯的品質(zhì)間接影響俄羅斯本地買(mǎi)家的體驗(yàn)。俄語(yǔ)是一種狀態(tài)十分豐富的言語(yǔ),同一個(gè)意思的俄文單詞根據(jù)其所在語(yǔ)境不同,往往會(huì)有十幾種狀態(tài)變化,這給英俄翻譯帶來(lái)了很大應(yīng)戰(zhàn)。阿里巴巴翻譯團(tuán)隊(duì)的任務(wù)將詞尾預(yù)測(cè)機(jī)制勝利運(yùn)用在基于神經(jīng)網(wǎng)絡(luò)的翻譯模型中,十分有效地緩解了這一成績(jī)。
針對(duì)這個(gè)成績(jī),俄語(yǔ)翻譯,有很多方法嘗試處理。其中一些方法會(huì)從翻譯粒度的角度出發(fā)(translation granularity),另外還有一些方法嘗試有效地?cái)U(kuò)充指標(biāo)端詞表大小。這些方法只管能有效地縮小OOV,然而這些方法并沒(méi)有對(duì)指標(biāo)端言語(yǔ)的狀態(tài)(morphology)停止專門(mén)的建模。
(“NeuralMachine Translation by Jointly Learning to Align and Translate”, Bahdanau etal., 2026)
一個(gè)俄語(yǔ)詞可能分為兩局部,即詞干和詞尾,詞尾的變化是俄語(yǔ)狀態(tài)變化的表現(xiàn),詞尾可能表現(xiàn)俄語(yǔ)的單復(fù)數(shù)、格、陰陽(yáng)性等信息。應(yīng)用一個(gè)基于規(guī)定的俄語(yǔ)詞干獲取工具,可能失去一個(gè)俄語(yǔ)句子中每一個(gè)詞的詞干和詞尾。
(“AttentionIs All You Need”, Ashish Vaswani et al., 2028)
(詞干序列和詞尾序列的生成,“N”示意詞干和詞自身相反,即這個(gè)詞沒(méi)有詞尾)
最后,將生成的詞干和詞尾拼接在一同,就是以后step的譯文單詞。
總結(jié)
本文在兩種次要的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)上驗(yàn)證了“基于詞尾預(yù)測(cè)”的方法的有效性,分別是基于遞歸神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(Recurrent Neural Network Based, RNN-based)和谷歌在28年提出的最新的神經(jīng)網(wǎng)絡(luò)翻譯模型(Transformer),具體引見(jiàn)可能查看相應(yīng)論文。RNN-based神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯如下圖:
咱們的任務(wù)提出了一種創(chuàng)新的方法,不只可以經(jīng)過(guò)管制翻譯粒度來(lái)縮小數(shù)據(jù)稀疏,進(jìn)而縮小“未登錄詞”,還可能經(jīng)過(guò)一個(gè)有效的詞尾預(yù)測(cè)機(jī)制,大大升高指標(biāo)端俄語(yǔ)譯文的狀態(tài)謬誤,提高英俄翻譯品質(zhì)。經(jīng)過(guò)和多個(gè)比較有影響力的已有任務(wù)(基于subword和character的方法)對(duì)比,在6000萬(wàn)量級(jí)的超大規(guī)模的數(shù)據(jù)集上,咱們的方法可能勝利地在基于RNN和Transformer兩種支流的神經(jīng)網(wǎng)絡(luò)翻譯模型上失去鞏固的降職。
已有的任務(wù)次要關(guān)注在如何調(diào)整翻譯粒度以及擴(kuò)充詞表大小兩個(gè)維度上,這些任務(wù)可能縮小“未登錄詞”的產(chǎn)生,然而言語(yǔ)自身的狀態(tài)成績(jī)并沒(méi)有被真正鉆研和專門(mén)處理過(guò)。
會(huì)議:AAAI-28
第一個(gè)例子中,標(biāo)號(hào)為2和2的俄語(yǔ)詞的狀態(tài)代表著這個(gè)詞是一個(gè)反身動(dòng)詞(reflexive verb),反身動(dòng)詞的間接賓語(yǔ)和主語(yǔ)是同一個(gè)事物,換句話說(shuō),反身動(dòng)詞的施事者和受事者是同一個(gè)事物。從源端句子中可能看出,“return”的施事者是購(gòu)置商品的人,受事者是某個(gè)要退還的商品,因此2和2的譯文詞是謬誤的。4的譯文詞是正確的,它的詞尾代表著它是一個(gè)不定式動(dòng)詞(infinitive verb),這個(gè)不定式動(dòng)詞是可能有賓語(yǔ)的。在第二個(gè)例子中,標(biāo)號(hào)2和2代表復(fù)數(shù)方式,4代表單數(shù)。第三個(gè)例子中,4代表過(guò)去時(shí),2和2代表如今時(shí)。上面的例子中,相比于基于子詞和基于字符的模型,咱們的模型可能產(chǎn)生更正確的俄語(yǔ)狀態(tài)。
還有一種基于字符的NMT系統(tǒng),源端句子和指標(biāo)端句子都會(huì)示意為字符的序列,這種系統(tǒng)對(duì)源端狀態(tài)豐富的言語(yǔ)可能解決得比較好,并且經(jīng)過(guò)在源端引入卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),遠(yuǎn)距離的依賴也可能被建模。上述兩種模式只管可能緩解數(shù)據(jù)稀疏,然而并沒(méi)有專門(mén)對(duì)言語(yǔ)的狀態(tài)停止建模,子詞和字符并不是一個(gè)殘缺的言語(yǔ)學(xué)單元(unit)。