版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-算法翻譯

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶(hù)提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

算法翻譯,是每個(gè)單詞在不同的語(yǔ)境中有不同的意思,根據(jù)計(jì)算機(jī)語(yǔ)法規(guī)則來(lái)翻譯句子。

ATTEBSC算法最先被成功地應(yīng)用于從“英語(yǔ)—土爾其語(yǔ)”句對(duì)庫(kù)中自動(dòng)抽取翻譯模板, 則將該算法及其改進(jìn)應(yīng)用于從英語(yǔ)—漢語(yǔ)”句對(duì)庫(kù)中自動(dòng)抽取翻譯模板。

多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法在實(shí)用機(jī)器翻譯系統(tǒng)的研究開(kāi)發(fā)中,復(fù)雜長(zhǎng)句的翻 譯處理是其面臨的一個(gè)主要難題。提出一種多語(yǔ)種通用的基于多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法,該算法通過(guò)基于實(shí)例模式匹配和規(guī)則分析相結(jié)合的方法,綜合利用源語(yǔ)言句子中多種相關(guān)的語(yǔ)言特征,包括語(yǔ)法語(yǔ)義特征、句子長(zhǎng)度、標(biāo)點(diǎn)符號(hào)、功能詞以及上下文語(yǔ)境條件等對(duì)復(fù)雜長(zhǎng)句進(jìn)行切分簡(jiǎn)化處理和譯文的復(fù)合生成。另一方面,通過(guò)對(duì)不同語(yǔ)種設(shè)計(jì)相同的知識(shí)表示形式,實(shí)現(xiàn)該算法對(duì)不同語(yǔ)種翻譯系 統(tǒng)的通用性。1

設(shè)計(jì)考慮針對(duì)造成句子復(fù)雜的因素,我們?cè)谠O(shè)計(jì)處理算法時(shí)基于以下幾個(gè)方面的考慮:

1、綜合利用多種相關(guān)語(yǔ)言特征知識(shí):在進(jìn)行句子切分處理時(shí),切分點(diǎn)的選擇盡量綜合利用諸如:句子長(zhǎng)度、標(biāo)點(diǎn)、功能詞、上下文語(yǔ)境條件等多方面的因素,以使切分開(kāi)的句子各部分在長(zhǎng)度上是適中的,表達(dá)的結(jié)構(gòu)和意義上是相對(duì)完整的,從而保證對(duì)句子各個(gè)部分翻譯處理的效果。

2、多語(yǔ)種通用:對(duì)于多語(yǔ)機(jī)器翻譯系統(tǒng)來(lái)說(shuō),不同語(yǔ)種的翻譯系統(tǒng)都會(huì)存在對(duì)復(fù)雜長(zhǎng)句的處理問(wèn)題。因此,在進(jìn)行復(fù)雜長(zhǎng)句切分處理算法的設(shè)計(jì)時(shí),要考慮到算法對(duì)不同語(yǔ)種翻譯系統(tǒng)的通用性,通過(guò)設(shè)計(jì)相同的數(shù)據(jù)結(jié)構(gòu)和算法機(jī)制,配套以不同的語(yǔ)種知識(shí)庫(kù),實(shí)現(xiàn)算法的多語(yǔ)種通用性。

3、同時(shí)考慮句子的切分簡(jiǎn)化和譯文的復(fù)合生成處理:翻譯的最終目的是得到目標(biāo)語(yǔ)言的翻譯結(jié)果。因此,在進(jìn)行多策略的切分處理時(shí),同時(shí)要考慮到切分的各個(gè)部分譯文的復(fù)合生成問(wèn)題。另一方面,切分實(shí)例模式的建立以生成為導(dǎo)向 ,從而可以得到較好的翻譯結(jié)果。1

基于多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法由于自然語(yǔ)言的復(fù)雜性,基于單一策略的分析處理算法很難處理好對(duì)復(fù)雜長(zhǎng)句的翻譯處理。為此,提出了一種基于多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法,該算法通過(guò)基于實(shí)例模式匹配和規(guī)則分析的方法的結(jié)合,基于一種多知識(shí)一體化的知識(shí)表示形式,從而實(shí)現(xiàn)對(duì)多語(yǔ)種通用的綜合利用句子的多種相關(guān)語(yǔ)言特征,包括長(zhǎng)度、標(biāo)點(diǎn)、功能詞以及上下文語(yǔ)境條件對(duì)復(fù)雜長(zhǎng)句進(jìn)行切分簡(jiǎn)化處理和譯文的復(fù)合生成的翻譯處理算法。1

知識(shí)表示

在描述的復(fù)雜長(zhǎng)句的翻譯處理中,涉及的知識(shí)主要有二種類(lèi)型:一種類(lèi)型是多知識(shí)一體化表示的規(guī)則知識(shí)(包括字典知識(shí)和歸約規(guī)則知識(shí));另一種類(lèi)型是多知識(shí)一體化表示的長(zhǎng)句切分簡(jiǎn)化處理的實(shí)例模式知識(shí),其表示形式包括如下幾個(gè)部分:

:主要指明相應(yīng)模式的類(lèi)型,包括:并排列型、從屬修飾型和插入語(yǔ)型;

:用于說(shuō)明源文句子中的一些特征條件,對(duì)不同的模式類(lèi)型,源文模式所表達(dá)的意義有所不同。對(duì)于并排列型,源文模式描述的是長(zhǎng)句切分點(diǎn)的特征串,如:“,which”、“,that”等;對(duì)于插入語(yǔ)型,源文模式描述的是插入成分的特征串,如:“that is to say”等;對(duì)于從屬修飾型,源文模式是一個(gè)含有特征化結(jié)構(gòu)成分的多種特征知識(shí)一體化表示的模式;

:用于說(shuō)明該模式使用時(shí)應(yīng)該滿(mǎn)足的上下文語(yǔ)境條件,可以是對(duì)切分點(diǎn)前后部分的長(zhǎng)度限制、句式限制等;

:用于說(shuō)明該模式相應(yīng)的譯文生成模式或譯文串,以實(shí)現(xiàn)對(duì)切分開(kāi)的各個(gè)部分的譯文拼合生成順序。1

算法描述

基于上述知識(shí)表示形式,提出的復(fù)雜長(zhǎng)句的切分簡(jiǎn)化處理算法為:對(duì)于任一個(gè)輸入的源文句子,逐個(gè)掃描每一個(gè)成分(詞或標(biāo)點(diǎn)符號(hào)),并以該成分的基本形式(如英文單詞的原形)檢索系統(tǒng)的長(zhǎng)句切分簡(jiǎn)化處理實(shí)例模式庫(kù),如果該模式庫(kù)中存在符合條件的模式,則進(jìn)行相應(yīng)的處理,具體的算法描述如下

設(shè)當(dāng)前處理的源語(yǔ)言句子SourceSent為:w1w2w3 … …wn

(wi可以是一個(gè)源語(yǔ)言單詞、數(shù)字、特殊符號(hào)或標(biāo)點(diǎn)符號(hào)等語(yǔ)言成分)

(1)設(shè)循環(huán)變量i的初始值為:i=1;設(shè)當(dāng)前翻譯的句子的起始位置s=1;轉(zhuǎn)(2);

(2)如果i等于n,則把ws+1…wn進(jìn)行基于規(guī)則的分析轉(zhuǎn)換生成相應(yīng)的譯文,返回;否則從SourceSent中讀取成分wi,并用這個(gè)成分到長(zhǎng)句切分簡(jiǎn)化處理實(shí)例模式庫(kù)進(jìn)行檢索,如果存在符合條件的實(shí)例模式,則轉(zhuǎn)(3),否則,i=i+1;并轉(zhuǎn)(2);

(3)如果符合條件的實(shí)例模式的類(lèi)型是排列型,則轉(zhuǎn)(4),否則,如果符合條件的實(shí)例模式是插入型模式,則轉(zhuǎn)(5),否則轉(zhuǎn)(6);

(4)把當(dāng)前的輸入句子SourceSent以wi為界進(jìn)行切分,先對(duì)該成分左邊的部分w1w2w3…wi-1進(jìn)行基 于規(guī)則的分析轉(zhuǎn)換生成相應(yīng)的譯文,同時(shí)置:s=i;i=i;并把從wi+1開(kāi)始的剩余部分繼續(xù)轉(zhuǎn)(2)處理并生成相應(yīng)的譯文,最后與前半部分的譯文合并形成整個(gè)輸入句子的譯文;

(5)把當(dāng)前的輸入句子SourceSent以wi為界進(jìn)行插入語(yǔ)成分的提取,并對(duì)提取的插入成分wiwi+1…wj進(jìn)行基于規(guī)則的分析轉(zhuǎn)換生成一個(gè)獨(dú)立成分IS(independent structure)和相應(yīng)的譯文。然后,再對(duì)輸入w1w2w3…wi-1 IS wj +1…wn 進(jìn)行基于規(guī)則的分析轉(zhuǎn)換并生成相應(yīng)的譯文,最后把IS的對(duì)應(yīng)譯文替換譯文模式中的IS;

(6)把當(dāng)前的輸入句子SourceSent與符合條件的候選模式的源文模式進(jìn)行近似匹配分析,最后根據(jù)該模式的解模式生成相應(yīng)的譯文。1

句子比較的英漢翻譯模板自動(dòng)提取算法模板的自動(dòng)抽取算法對(duì)機(jī)器翻譯的研究具有重要意義。從面向英漢翻譯的角度出發(fā),對(duì)基于句子比較的翻譯模板抽取(ATTEBSC)算法及其改進(jìn)開(kāi)展了比較研究,結(jié)果發(fā)現(xiàn)傳統(tǒng)ATTEBSC算法在處理大規(guī)模語(yǔ)料庫(kù)時(shí)運(yùn)行效率較低,而且產(chǎn)生的無(wú)用模板比例較高,其中一個(gè)重要原因是沒(méi)有事先對(duì)雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)進(jìn)行分類(lèi)處理。通過(guò)相似性分析對(duì)句子進(jìn)行聚類(lèi)處理后再運(yùn)行ATTEBSC算法,則發(fā)現(xiàn)該算法的運(yùn)行效率和有用模板的比例都獲得了較大的提高。2

翻譯模板抽取算法的改進(jìn)詳細(xì)論述了ATTEBSC算法,不難看出該算法能夠從具有相同或相近句子結(jié)構(gòu)的句對(duì)中學(xué)習(xí)出較好的模板,但是從句子結(jié)構(gòu)相去甚遠(yuǎn)的句對(duì)中學(xué)習(xí)出的模板一般質(zhì)量較差甚至毫無(wú)用處。例如:如果句對(duì)由一個(gè)主謂賓結(jié)構(gòu)句和一個(gè)強(qiáng)調(diào)句構(gòu)成,那么算法就很難學(xué)出較好的模板。因此在進(jìn)行模板抽取前,有必要從大規(guī)模語(yǔ)料庫(kù)中把具有相似結(jié)構(gòu)的句子對(duì)進(jìn)行聚類(lèi)。為提高ATTEBSC算法的效率,所使用的聚類(lèi)方法應(yīng)避免進(jìn)行復(fù)雜的句法、語(yǔ)法分析。通過(guò)使用標(biāo)志結(jié)構(gòu)的比較實(shí)現(xiàn)句子對(duì)的啟發(fā)式聚類(lèi)分析。

標(biāo)志結(jié)構(gòu)是一組描述句子對(duì)特征參數(shù),其中包括:英語(yǔ)句首標(biāo)志headSign、英語(yǔ)句中標(biāo)志midSign、英語(yǔ)句尾標(biāo)志tail-Sign、英語(yǔ)子句個(gè)數(shù)eSubSentNum、漢語(yǔ)子句個(gè)數(shù)cSubSent-Num、英語(yǔ)單詞個(gè)數(shù)eWordsNum和漢語(yǔ)單詞個(gè)數(shù)cWordsNum,它們的含義分別解釋如下:

(1)headSign參數(shù)用于標(biāo)識(shí)英語(yǔ)句子句首特征,漢語(yǔ)句子語(yǔ)法過(guò)于復(fù)雜,因此忽略相應(yīng)的漢語(yǔ)譯句分析。在具體應(yīng)用中,該參數(shù)對(duì)各種英語(yǔ)句型句首的前幾個(gè)單詞編號(hào),如:What(What疑問(wèn)句):headSign=1;If(假設(shè)句):headSign=2;There be:headSign=3等,每種編號(hào)表示一種英語(yǔ)句型;所有不屬于以上類(lèi)型的句子規(guī)定缺省參數(shù)值為0。

(2)midSig參數(shù):大量的英語(yǔ)句型的特征詞并不在句子兩端,如定語(yǔ)從句中,標(biāo)志that,which,whose等位于句中,這種詞用midSign參數(shù)表示,如:util、so、before、as soon as等,編號(hào)方法同上。同樣,該參數(shù)只用于標(biāo)識(shí)英語(yǔ)句子。

(3)tailSign參數(shù)用于標(biāo)識(shí)英語(yǔ)句子的句尾特征,即標(biāo)點(diǎn)符號(hào)。例如:“?”表示問(wèn)句;“。”表示陳述句;“!”表示感嘆句等,分別對(duì)其編號(hào),編號(hào)方法同上。

(4)eSubSentNum參數(shù):將具有不同分句數(shù)的兩個(gè)句子相比較,會(huì)產(chǎn)生不好的模板,因此設(shè)置該字段表示英語(yǔ)的子句數(shù),子句數(shù)通過(guò)“,”或“;”判斷,因此該參數(shù)的值就是句子中逗號(hào)或分號(hào)的個(gè)數(shù)加一。

(5)cSubSentNum參數(shù):漢語(yǔ)句子的子句數(shù),該字段賦值方法同上。

(6)eWordsNum參數(shù):用于記錄英語(yǔ)句子的單詞數(shù)。如果兩個(gè)相比較的句子句長(zhǎng)相差太多,則難于抽取到有價(jià)值的翻譯模板;如果英語(yǔ)句子的句長(zhǎng)和對(duì)應(yīng)的漢語(yǔ)譯句的句長(zhǎng)相差太多,通常也難于抽取到有價(jià)值的翻譯模板。因此設(shè)置該參數(shù)用以記錄句子長(zhǎng)度。

(7)cWordsNum參數(shù):用于記錄漢語(yǔ)句子的字?jǐn)?shù)。2

實(shí)驗(yàn)結(jié)果利用PIII1.4G和128M內(nèi)存的計(jì)算機(jī)在Windows2000Server下實(shí)現(xiàn)C#編寫(xiě)的ATTEBSC算法。為驗(yàn)證該算法的性能,分別在5000句對(duì)和10000句對(duì)的兩個(gè)語(yǔ)料庫(kù)上運(yùn)行了所實(shí)現(xiàn)的算法,測(cè)試結(jié)果見(jiàn)ATTEBSC算法的性能測(cè)試,其中系統(tǒng)1是對(duì)ATTEBSC算法的直接實(shí)現(xiàn),而系統(tǒng)2是對(duì)語(yǔ)料庫(kù)聚類(lèi)后再實(shí)現(xiàn)ATTEB-SC算法。

從ATTEBSC算法的性能測(cè)試結(jié)果不難看出,系統(tǒng)2的模板抽取效率和準(zhǔn)確率比系統(tǒng)1有顯著提高。由于使用托管語(yǔ)言編程,因此系統(tǒng)1和系統(tǒng)2的運(yùn)行速度受到較大影響;另外,由于使用xml文件組織數(shù)據(jù),而且使用DOM解析器進(jìn)行數(shù)據(jù)分析,因此當(dāng)語(yǔ)料規(guī)模較大時(shí),系統(tǒng)1和系統(tǒng)2運(yùn)行速度將受到嚴(yán)重影響。正在設(shè)法采用SAX解析器提高系統(tǒng)1和系統(tǒng)2的運(yùn)行速度。2

本詞條內(nèi)容貢獻(xiàn)者為:

李嘉騫 - 博士 - 同濟(jì)大學(xué)