文章內(nèi)容

談一談神經(jīng)網(wǎng)絡(luò)成了“香餑餑”,搜狗公布語(yǔ)音實(shí)時(shí)翻譯

時(shí)間:2018-07-02 09:10來(lái)源:網(wǎng)絡(luò)整理 作者:珠海翻譯公司 點(diǎn)擊:

這項(xiàng)技術(shù)是基于大數(shù)據(jù)和深度學(xué)習(xí),聯(lián)合了搜狗自主研發(fā)的語(yǔ)音辨認(rèn)、機(jī)器翻譯兩項(xiàng)重要技術(shù),從無(wú)到有的研發(fā)進(jìn)程僅歷時(shí)4個(gè)月?!爸哉Z(yǔ)音團(tuán)隊(duì)會(huì)去做翻譯,是由于隨著技術(shù)的緩緩交疊和融合,咱們發(fā)現(xiàn)語(yǔ)音辨認(rèn)和機(jī)器翻譯都是一個(gè)序列到另一個(gè)序列學(xué)習(xí)進(jìn)程,因此,語(yǔ)音的積攢也就可能轉(zhuǎn)到翻譯下來(lái)做?!彼压氛Z(yǔ)音交互技術(shù)擔(dān)任人陳偉示意。

傳統(tǒng)機(jī)器翻譯所采用的支流模式叫“統(tǒng)計(jì)翻譯”,從語(yǔ)料庫(kù)大量的翻譯實(shí)例中主動(dòng)學(xué)習(xí)翻譯知識(shí),然后應(yīng)用這些翻譯知識(shí)主動(dòng)翻譯其余句子。這就需求把整個(gè)建模流程分成對(duì)齊模型、分層模型等多個(gè)模型,每個(gè)模型實(shí)現(xiàn)特定的很小的性能,最后串起來(lái)實(shí)現(xiàn)簡(jiǎn)單的機(jī)器翻譯系統(tǒng)。在這個(gè)進(jìn)程中,每個(gè)模型的謬誤也會(huì)始終疊加。

在翻譯畛域,神經(jīng)網(wǎng)絡(luò)儼然是個(gè)“香餑餑”。

文|百曉

今年0月,谷歌正式導(dǎo)入神經(jīng)機(jī)器翻譯系統(tǒng)(Neural Machine Translation),它能讓翻譯系統(tǒng)不再像以前一樣逐字逐句的翻譯,而是根據(jù)整篇文章的大意來(lái)對(duì)句子停止剖析。而短短三個(gè)月后,谷歌翻譯再次更新,除了讓神經(jīng)機(jī)器翻譯系統(tǒng)支持更多語(yǔ)系外,也讓谷歌翻譯結(jié)果愈加人造,更合乎人類慣用的語(yǔ)法。

不過(guò),“翻譯官們”臨時(shí)也沒(méi)必要擔(dān)心本人的飯碗。雖然機(jī)器翻譯取得了新一階段的打破,但因?yàn)檠哉Z(yǔ)和環(huán)境的簡(jiǎn)單性,想要齊全依托人工智能和語(yǔ)義理解還有很長(zhǎng)的路要走。

機(jī)器學(xué)習(xí)和訓(xùn)練首先需求大量樣本,谷歌翻譯過(guò)去20年積攢的海量翻譯數(shù)據(jù)正好提供了這樣一個(gè)學(xué)習(xí)的土壤。“深度學(xué)習(xí)的技術(shù)對(duì)各家來(lái)說(shuō)沒(méi)有太強(qiáng)的隱衷可言,真正的壁壘還是在數(shù)據(jù)上,你的數(shù)據(jù)決議了你最后的效果?!彼压氛Z(yǔ)音交互技術(shù)擔(dān)任人陳偉示意,搜狗的語(yǔ)音輸入日頻次達(dá)到2.0億次,珠海翻譯公司,每日收集的用戶語(yǔ)音語(yǔ)料從三個(gè)月前公布語(yǔ)音交互引擎知音時(shí)的22萬(wàn)小時(shí),添加到26萬(wàn)小時(shí)。

22月22日,搜狗對(duì)外公布了語(yǔ)音實(shí)時(shí)翻譯技術(shù)。當(dāng)然,這并非搜狗言語(yǔ)實(shí)時(shí)翻譯技術(shù)的初次亮相,在剛剛完結(jié)的第三屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗CEO王小川就曾在現(xiàn)場(chǎng)演講中演示該技術(shù),每當(dāng)王小川講完一句話之后,其身后屏幕便實(shí)時(shí)實(shí)現(xiàn)了語(yǔ)音和文字轉(zhuǎn)換,提前只要2秒。

對(duì)于機(jī)器翻譯來(lái)說(shuō),終極的幻想就是輸入一個(gè)語(yǔ)音,間接出對(duì)應(yīng)的結(jié)果,中間一切的事件都交給模型去做,但傳統(tǒng)機(jī)器翻譯卻未能無(wú)關(guān)鍵打破,這要從完成模式上講起。

這次搜狗推出的實(shí)時(shí)語(yǔ)音翻譯,在完成門路上不同于傳統(tǒng)機(jī)器翻譯,而是融合端到端神經(jīng)機(jī)器翻譯技術(shù)以及基于實(shí)例的翻譯技術(shù),利用的端到端神經(jīng)網(wǎng)絡(luò)翻譯模型經(jīng)過(guò)編碼端獲取源端句子的散布式示意,應(yīng)用留意力模型聚焦源端,利用循環(huán)神經(jīng)網(wǎng)絡(luò)生成翻譯結(jié)果,準(zhǔn)確率可能降職40%-40%。

“搜狗的使命是讓表達(dá)和獲取信息更簡(jiǎn)略。未來(lái),搜狗會(huì)經(jīng)過(guò)人造交互和知識(shí)計(jì)算,促進(jìn)更多人工智能產(chǎn)品的落地。”對(duì)于輸入法的終極想象,王小川說(shuō),輸入法的極致,是可以末尾尋覓信息,幫你思索。