- 簡(jiǎn)體中文
- 繁體中文
- English
- Japanese
- Korean
- Russian
- French
- Spanish
機(jī)器翻譯是指利用計(jì)算機(jī)把一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言的技術(shù),是一門結(jié)合了語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科的交叉學(xué)科。認(rèn)知智能是人工智能的最高階段,自然語(yǔ)言理解是認(rèn)知智能領(lǐng)域的“皇冠”。機(jī)器翻譯這一自然語(yǔ)言處理領(lǐng)域最具挑戰(zhàn)性的研究任務(wù),則是自然語(yǔ)言處理領(lǐng)域“皇冠上的明珠”。近年來(lái),機(jī)器翻譯發(fā)展十分迅猛,但對(duì)于機(jī)器翻譯與人工翻譯孰優(yōu)孰劣、機(jī)器翻譯能否取代人工翻譯,一直存在爭(zhēng)議。機(jī)器翻譯之父韋弗曾提出“翻譯即解碼”的結(jié)構(gòu)主義觀點(diǎn),但是,數(shù)年之后,他自己又推翻了這一論斷,表示“機(jī)器成不了普希金,機(jī)器翻譯永遠(yuǎn)都無(wú)法傳達(dá)出語(yǔ)言本身的優(yōu)雅與格調(diào)”。
機(jī)器翻譯發(fā)展迅速
語(yǔ)言能力是區(qū)分人類和動(dòng)物的重要特征之一,是人類有效交流的保證。用機(jī)器來(lái)進(jìn)行語(yǔ)言翻譯的想法,最早可追溯到古希臘時(shí)期。現(xiàn)代意義上的“機(jī)器翻譯”一詞,由古圖拉特(Couturat)和洛(Leau)1903年在《通用語(yǔ)言的歷史》一書中最早提出。1949年,韋弗發(fā)表了具有廣泛影響力的名為《翻譯》的備忘錄,正式提出了機(jī)器翻譯的思想。直到2006年Hinton提出深度學(xué)習(xí)技術(shù),才為實(shí)現(xiàn)這一目標(biāo)提供了更好的解決途徑。目前的前沿技術(shù)是基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí),其技術(shù)核心是一個(gè)擁有海量節(jié)點(diǎn)(神經(jīng)元)的深度神經(jīng)網(wǎng)絡(luò),可以自動(dòng)地從語(yǔ)料庫(kù)學(xué)習(xí)翻譯知識(shí)。一種語(yǔ)言的句子被向量化之后,在網(wǎng)絡(luò)中層層傳遞,轉(zhuǎn)化為計(jì)算機(jī)可以“理解”的表示形式,再經(jīng)過多層復(fù)雜的傳導(dǎo)運(yùn)算,生成另一種語(yǔ)言的譯文。
2015年,蒙特利爾大學(xué)引入注意力機(jī)制,使得神經(jīng)機(jī)器翻譯達(dá)到實(shí)用階段。此后,神經(jīng)機(jī)器翻譯不斷取得進(jìn)展。2016年,谷歌GNMT發(fā)布,該系統(tǒng)可模仿人腦的神經(jīng)思考模式,翻譯出與人工翻譯相媲美的譯文。同年,微軟在Switchboard對(duì)話語(yǔ)義識(shí)別達(dá)到人類水平,訊飛上線NMT系統(tǒng),神經(jīng)機(jī)器翻譯開始被大規(guī)模應(yīng)用。科學(xué)雜志Nature梳理了2016年科技領(lǐng)域的十大突破,排在首位的就是人工智能,其中提及人工智能的機(jī)器翻譯使錯(cuò)誤減少了約60%。隨后,F(xiàn)acebook的人工智能研究團(tuán)隊(duì)開發(fā)了一種新的神經(jīng)機(jī)器翻譯算法,在三種機(jī)器翻譯任務(wù)上得分高于所有同類系統(tǒng)。2017 年,微軟在斯坦福問答數(shù)據(jù)集 SQuAD 上達(dá)到人類水平。機(jī)器翻譯的發(fā)展速度遠(yuǎn)遠(yuǎn)超出人們的想象,但是對(duì)于機(jī)器翻譯是否能夠真正完全代替人工翻譯,學(xué)界仍舊爭(zhēng)論不休。
機(jī)器翻譯取代人工翻譯
目前而言,一部分專家認(rèn)為機(jī)器翻譯很快會(huì)達(dá)到人工翻譯水平,在不遠(yuǎn)的將來(lái)會(huì)完全取代人工翻譯。2010年,谷歌機(jī)器翻譯專家歐赫認(rèn)為文本機(jī)器翻譯是合理有效的,真正的挑戰(zhàn)只在語(yǔ)音識(shí)別方面。他提出,未來(lái)幾年即有可能實(shí)現(xiàn)手機(jī)端語(yǔ)音到語(yǔ)音的自動(dòng)翻譯。2019年2月《衛(wèi)報(bào)》刊登《機(jī)器翻譯的時(shí)代是否已經(jīng)到來(lái)》一文,美國(guó)韋弗利實(shí)驗(yàn)室(Waverly Labs)的安德魯·奧喬亞表示“在未來(lái)十到十二年內(nèi),機(jī)器翻譯技術(shù)可與人工翻譯相媲美,甚至超過人工翻譯的水平”。
專家們對(duì)于機(jī)器翻譯的信心來(lái)自最新一代的翻譯技術(shù)——神經(jīng)網(wǎng)絡(luò)翻譯。神經(jīng)網(wǎng)絡(luò)翻譯打造的機(jī)器翻譯系統(tǒng),采用了一系列新的學(xué)習(xí)手段來(lái)模擬人工翻譯。首先,利用人工智能任務(wù)的天然對(duì)稱性進(jìn)行對(duì)偶學(xué)習(xí)。當(dāng)訓(xùn)練集中的一個(gè)中文句子被翻譯成英文后,系統(tǒng)會(huì)將相應(yīng)的英文結(jié)果再翻譯回中文,并與原始的中文句子進(jìn)行比對(duì),進(jìn)而從這個(gè)比對(duì)結(jié)果中學(xué)習(xí)有用的反饋信息,對(duì)機(jī)器翻譯模型進(jìn)行修正。其次,利用推敲網(wǎng)絡(luò),模擬人們寫作時(shí)不斷推敲、修改的過程。這樣,通過多輪翻譯,不斷地檢查、完善翻譯的結(jié)果,使翻譯的質(zhì)量得到大幅提升。再次,采用聯(lián)合訓(xùn)練的方法迭代改進(jìn)翻譯系統(tǒng)。用中英翻譯的句子對(duì)去補(bǔ)充反向翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)集,同樣的過程也可以反向進(jìn)行。最后,采用一致性規(guī)范讓翻譯可以從左到右進(jìn)行,也可以從右到左進(jìn)行,最終讓兩個(gè)過程生成一致的翻譯結(jié)果。這一系列技術(shù)有效模仿了人工翻譯的過程,極大提升了機(jī)器翻譯的整體質(zhì)量。
除此之外,機(jī)器翻譯相關(guān)學(xué)科之間的互動(dòng)更加頻繁,合作更加緊密。翻譯界和技術(shù)界都呈現(xiàn)出了更大的包容性,相關(guān)人士達(dá)成一定共識(shí),即過去那種把語(yǔ)言學(xué)家排除在外,僅依賴技術(shù)界,埋頭做數(shù)據(jù)、分析開發(fā)系統(tǒng)的做法是不可取的。在語(yǔ)言學(xué)和翻譯學(xué)領(lǐng)域,越來(lái)越多的人開始關(guān)注機(jī)器翻譯,對(duì)技術(shù)應(yīng)用探索也不再一味抵觸,開始從用戶和市場(chǎng)需求的角度來(lái)客觀看待不同層級(jí)和不同受眾的語(yǔ)言服務(wù),計(jì)算機(jī)輔助翻譯在專業(yè)翻譯領(lǐng)域發(fā)揮著越來(lái)越重要的作用。
機(jī)器翻譯技術(shù)仍備受質(zhì)疑
對(duì)于現(xiàn)有的機(jī)器翻譯技術(shù),很多學(xué)者也表示質(zhì)疑。一方面,他們認(rèn)為機(jī)器翻譯的廣泛適用性還有待考察。盡管機(jī)器翻譯在某些測(cè)試中正確率較高,而且在某些領(lǐng)域接近或超過人工譯員,但是這些測(cè)試只是針對(duì)特定范圍的文本,要想達(dá)到測(cè)試水平,必須滿足對(duì)于源語(yǔ)言和環(huán)境的苛刻要求。在筆譯方面,馮志偉在《機(jī)器翻譯研究》中表示,目前的機(jī)器翻譯系統(tǒng)對(duì)普通文本的翻譯在可讀性和準(zhǔn)確性方面離人們的實(shí)際需求還有相當(dāng)大的距離。機(jī)器翻譯系統(tǒng)對(duì)普通文本的翻譯,通常需要大量的譯后審校工作才能使譯文達(dá)到出版的要求,所花費(fèi)的時(shí)間和費(fèi)用往往會(huì)超過純?nèi)斯しg。在口譯方面,中國(guó)科學(xué)院自動(dòng)化研究所宗成慶在《機(jī)器翻譯的夢(mèng)想與現(xiàn)實(shí)》中指出,在日常口語(yǔ)對(duì)話中,目前口語(yǔ)機(jī)器翻譯僅能對(duì)資源較為充分的語(yǔ)言(如英漢、日漢等),在說(shuō)話場(chǎng)景不是非常復(fù)雜、口音基本標(biāo)準(zhǔn)、語(yǔ)速基本正常、使用詞匯和句型不是非常生僻的情況下,可基本滿足正常交流的需要。
另一方面,針對(duì)機(jī)器翻譯的譯文整體水平,目前還沒有建立起專業(yè)合理的評(píng)價(jià)體系。目前使用較多的是BLEU和METEOR標(biāo)準(zhǔn),BLEU評(píng)測(cè)由IBM公司于2002年提出,認(rèn)為翻譯系統(tǒng)的譯文越接近人工翻譯,翻譯的質(zhì)量就越高。該評(píng)測(cè)通過分析候選譯文和參考譯文中n元組共同出現(xiàn)的程度來(lái)定義系統(tǒng)譯文與參考譯文之間的相似度,缺點(diǎn)在于沒有考慮翻譯的召回率。METEOR標(biāo)準(zhǔn)于2004年由Lavir提出。研究表明,召回率基礎(chǔ)上的標(biāo)準(zhǔn)相比于那些單純基于精度的標(biāo)準(zhǔn)(如BLEU),其結(jié)果和人工判斷的結(jié)果有較高相關(guān)性。微軟全球技術(shù)院院士黃學(xué)東表示,“當(dāng)機(jī)器翻譯質(zhì)量很差的時(shí)候,使用 BLEU 評(píng)分還行,但是當(dāng)機(jī)器翻譯質(zhì)量提高以后,就需要靠人類來(lái)評(píng)價(jià)”。但人工評(píng)價(jià)很難保持統(tǒng)一的標(biāo)準(zhǔn),所以有些專家直接否定了現(xiàn)有的評(píng)價(jià)體系以及將譯文水平量化的做法。美國(guó)印第安納大學(xué)侯世達(dá)教授在《論谷歌翻譯的淺薄》一文中表示,“這是一種對(duì)無(wú)法量化的事物進(jìn)行量化的偽科學(xué),用看上去很科學(xué)的圖表去證明翻譯質(zhì)量,不過是對(duì)科學(xué)方法的濫用而已”。
機(jī)器翻譯不可能代替人工翻譯
神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的應(yīng)用帶動(dòng)了機(jī)器翻譯的飛速發(fā)展,使得一部分學(xué)者對(duì)此非常樂觀,但也有許多學(xué)者對(duì)此提出了批評(píng)。語(yǔ)言學(xué)和翻譯學(xué)界的很多學(xué)者認(rèn)為目前機(jī)器翻譯的發(fā)展有限,“信”尚且未達(dá)成,更遑論取代人工翻譯。多位學(xué)者表示人在翻譯中的主動(dòng)性和創(chuàng)造性是機(jī)器無(wú)法比擬的。如美國(guó)加州大學(xué)伯克利分校語(yǔ)言學(xué)系教授喬治·萊考夫與美國(guó)俄勒岡大學(xué)哲學(xué)系教授馬克·約翰森在《我們賴以生存的隱喻》一書中提出,語(yǔ)言在本質(zhì)上更多是隱喻性而非事實(shí)性的。人類語(yǔ)言習(xí)得常基于對(duì)抽象的、具有比喻意義的概念的學(xué)習(xí),向機(jī)器解釋這些概念非常困難,文學(xué)翻譯更是機(jī)器翻譯難以逾越的鴻溝。胡壯麟在《語(yǔ)言學(xué)教程》中提出,僅靠文本分析、忽略現(xiàn)實(shí)、沒有“人”這一主體參與的“機(jī)器翻譯”,是站不住腳的。
專家們認(rèn)為測(cè)試中機(jī)器翻譯技術(shù)的進(jìn)步帶來(lái)的譯文雖有改善,但不論文本翻譯還是口譯,機(jī)器翻譯的質(zhì)量遠(yuǎn)沒有達(dá)到令人滿意的水平。盡管機(jī)器翻譯已迭代至神經(jīng)網(wǎng)絡(luò)翻譯,宗成慶研究員在《機(jī)器翻譯的夢(mèng)想與現(xiàn)實(shí)》中指出,目前的翻譯系統(tǒng)“難以準(zhǔn)確處理篇章范圍內(nèi)的指代問題,無(wú)法準(zhǔn)確區(qū)分由于細(xì)微文字或句法差異造成的句子語(yǔ)義反轉(zhuǎn),無(wú)法從譯員譯后編輯過程中自動(dòng)學(xué)習(xí)翻譯知識(shí)。在復(fù)雜長(zhǎng)句翻譯中大量出現(xiàn)漏翻、錯(cuò)翻和次序顛倒;面對(duì)原文的噪聲束手無(wú)策;俚語(yǔ)成語(yǔ)的翻譯仍是不可攻克的堡壘,機(jī)器同聲傳譯的語(yǔ)音識(shí)別問題仍然沒有很好地解決”。清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室主任劉洋在《基于深度學(xué)習(xí)的機(jī)器翻譯》的報(bào)告中提到了機(jī)器翻譯的進(jìn)展和面臨的三個(gè)挑戰(zhàn),知識(shí)整合、解釋性和對(duì)噪聲具有魯棒性。現(xiàn)有的研究正針對(duì)這三個(gè)挑戰(zhàn)進(jìn)行系統(tǒng)優(yōu)化,但從理論研究到應(yīng)用還需要繼續(xù)努力。
人機(jī)協(xié)同是必然趨勢(shì)
筆者認(rèn)為機(jī)器翻譯和人工翻譯各有優(yōu)勢(shì),人機(jī)協(xié)同是必然趨勢(shì)。隨著語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知心理學(xué)等學(xué)科的發(fā)展以及以上學(xué)科在機(jī)器翻譯領(lǐng)域的進(jìn)一步合作,機(jī)器翻譯技術(shù)的迭代必將以更快的速度持續(xù)發(fā)生,從而推動(dòng)機(jī)器翻譯的質(zhì)量不斷提升至接近甚至在一定條件下達(dá)到或超過人工翻譯的水平。但是在情感、文化等需要對(duì)語(yǔ)言進(jìn)行深度理解的情況下,機(jī)器翻譯并不能完全代替人工翻譯。二者將在理論發(fā)展、技術(shù)進(jìn)步與市場(chǎng)推動(dòng)的多重作用下,成為緊密結(jié)合互補(bǔ)的有機(jī)整體,實(shí)現(xiàn)真正意義上的人機(jī)協(xié)同。
人工智能旨在讓計(jì)算機(jī)復(fù)制人類的行為。看、聽、行動(dòng)、計(jì)劃都是典型的人類行為,而其中最復(fù)雜的任務(wù)是溝通,最難的是具備翻譯的能力。這就是人工智能研究人員將解決機(jī)器翻譯問題看作實(shí)現(xiàn)人工智能關(guān)鍵的原因。人工智能的時(shí)代已經(jīng)到來(lái),與語(yǔ)言服務(wù)業(yè)蓬勃發(fā)展態(tài)勢(shì)相適應(yīng)的是,傳統(tǒng)意義上的譯者角色已滿足不了新時(shí)代語(yǔ)言服務(wù)提出的新要求。技術(shù)必將逐漸改變?nèi)藗兊墓ぷ鳌⑸罘绞剑瑢?shí)現(xiàn)消滅語(yǔ)言障礙的終極目標(biāo)。在這個(gè)過程中,機(jī)器翻譯可以減少譯員大量重復(fù)、翻譯難度較低的勞動(dòng),避免翻譯疲勞、提高翻譯效率,替代諸如天氣預(yù)報(bào)查詢、旅館預(yù)訂服務(wù)、交通信息咨詢等低端翻譯人員,但不可能取代高端翻譯(如重要文獻(xiàn)、文學(xué)名著等翻譯)人員,更不會(huì)消除翻譯職業(yè)。如劉星光在《中國(guó)機(jī)器翻譯研究述評(píng):?jiǎn)栴}與對(duì)策》一書中提出,機(jī)器翻譯與人工翻譯并不矛盾,機(jī)器翻譯和人工翻譯我們都需要,這要根據(jù)所翻譯的材料而定。
“機(jī)器會(huì)翻譯了,人類就不需要學(xué)習(xí)外語(yǔ)”的思維邏輯與“有了計(jì)算器,就可以不用學(xué)算術(shù)”一樣無(wú)稽。即使未來(lái)人工智能翻譯在準(zhǔn)確性和速度上超越了人工翻譯,人工翻譯在傳達(dá)情感、文化以及語(yǔ)言深層含義方面的作用仍不可替代。低端譯員的淘汰,本質(zhì)上講,是行業(yè)內(nèi)部?jī)?yōu)勝劣汰加速的結(jié)果,機(jī)器翻譯的出現(xiàn)只是加快了這一進(jìn)程。人機(jī)協(xié)同是人工翻譯在人工智能時(shí)代下的必然選擇,也是提升行業(yè)質(zhì)量與競(jìng)爭(zhēng)力的必由之路。正如趙聯(lián)斌在《論機(jī)器翻譯時(shí)代人工譯員與機(jī)器譯員的共軛相生》一文中提到,“未來(lái)的人工譯者絕不是僅懂計(jì)算機(jī)技術(shù)或僅具備雙語(yǔ)能力的人,而應(yīng)是集計(jì)算機(jī)能力與雙語(yǔ)能力于一體的復(fù)合型人才”