資源描述:
《語(yǔ)篇結(jié)構(gòu)標(biāo)注研究的綜述論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、語(yǔ)篇結(jié)構(gòu)標(biāo)注研究的綜述論文.freelpson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個(gè)的文本分析,往往著眼于語(yǔ)篇的某一個(gè)方面,如指代關(guān)系、語(yǔ)篇的風(fēng)格、語(yǔ)篇的多維性以及某一理論在語(yǔ)篇中的體現(xiàn)等,很少被用于大規(guī)模的語(yǔ)料分析或語(yǔ)料標(biāo)注。在建立參照語(yǔ)料庫(kù)時(shí),Carlson(2001)等研究者將Mann和Thompson(1987)提出的修辭結(jié)構(gòu)理論(RST)用于大批量的語(yǔ)篇標(biāo)注和語(yǔ)篇分析。他們認(rèn)為用修辭結(jié)構(gòu)理論(RST)對(duì)語(yǔ)篇進(jìn)行標(biāo)注有三點(diǎn)優(yōu)勢(shì):可以同時(shí)捕捉到特定文本的交際意圖、語(yǔ)義信息和文本本身的特征;先前的研究表明該理論可以使不同的標(biāo)注者在
2、標(biāo)注不同的文本時(shí)達(dá)到一定的統(tǒng)一;用該理論標(biāo)注的語(yǔ)篇樹(shù)形圖對(duì)構(gòu)建自然語(yǔ)篇生成系統(tǒng)、自動(dòng)文摘系統(tǒng)、文本測(cè)評(píng)系統(tǒng)起著關(guān)鍵的作用,也可以用來(lái)增強(qiáng)機(jī)器翻譯的自然性。參照篇章語(yǔ)料庫(kù)的建成確立了篇章結(jié)構(gòu)標(biāo)注的理論基礎(chǔ)。2.基本語(yǔ)篇單位的確定語(yǔ)篇結(jié)構(gòu)標(biāo)注的另一成就是確定了英語(yǔ)基本語(yǔ)篇單位。在確定基本語(yǔ)篇單位時(shí),不同的研究者往往運(yùn)用不同的理論。Givon(1983)認(rèn)為從句應(yīng)該成為語(yǔ)篇的基本單位,Sacks(1974)認(rèn)為談話(huà)的話(huà)輪應(yīng)該成為語(yǔ)篇的基本單位,Polanyi(1988)堅(jiān)持語(yǔ)篇應(yīng)該以自然句為切分單位,Grosz和Sindner(1986)認(rèn)為語(yǔ)篇的基本單位應(yīng)該從語(yǔ)篇
3、的上下文中獲取,它是由一定的符號(hào)所反映的信息載體,能反映事物的單個(gè)狀態(tài)或部分狀態(tài),最有影響的修辭結(jié)構(gòu)理論認(rèn)為從句應(yīng)該是語(yǔ)篇的基本單位,不管從句有沒(méi)有語(yǔ)法標(biāo)記或詞匯標(biāo)記。然而,在具體標(biāo)注時(shí),Marcu等研究者對(duì)基本語(yǔ)篇單位有了新的規(guī)定:所有有詞匯或句法標(biāo)記的起狀語(yǔ)作用的從句都屬于基本語(yǔ)篇單位,包括起狀語(yǔ)作用的非謂語(yǔ)動(dòng)詞詞組;充當(dāng)主語(yǔ)、賓語(yǔ)、補(bǔ)語(yǔ)的從句不屬于基本語(yǔ)篇單位;定語(yǔ)從句、后置的名詞修飾短語(yǔ)或?qū)⑵渌菊Z(yǔ)篇單位割裂開(kāi)的從句或非謂語(yǔ)動(dòng)詞短語(yǔ)為內(nèi)置語(yǔ)篇單位;除此而外,還有一定數(shù)量的有明顯語(yǔ)篇標(biāo)記的短語(yǔ)作為基本語(yǔ)篇單位,如由inspiteof(盡管),accor
4、dingto(根據(jù))等引導(dǎo)的短語(yǔ)。Marcu的切分方法綜合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理論,在確定基本語(yǔ)篇單位時(shí)考慮到詞匯、句法、語(yǔ)義和在句中的位置等因素。3.修辭關(guān)系的擴(kuò)展當(dāng)初,Mann和Thompson(1987)提出修辭結(jié)構(gòu)理論時(shí)只給出20多種修辭關(guān)系,但他們明確指出這是一個(gè)開(kāi)放關(guān)系集,既然是開(kāi)放性的,就意味著讀者在給定話(huà)語(yǔ)的內(nèi)部可以定義出其他的關(guān)系類(lèi)型。Marcu(2000)根據(jù)標(biāo)注的語(yǔ)料庫(kù)總結(jié)出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個(gè)組別,每組都具有相同的修辭
5、功能。就如同當(dāng)初的定義關(guān)系集一樣,這些關(guān)系覆蓋了基本語(yǔ)篇單位、語(yǔ)段乃至整個(gè)語(yǔ)篇。通過(guò)這些關(guān)系,不同層級(jí)的語(yǔ)言片段被連接起來(lái),構(gòu)成一定的抽象形式。4.標(biāo)注標(biāo)準(zhǔn)和方法的制定為了建立高質(zhì)量的前后一致的標(biāo)注標(biāo)準(zhǔn)和方法,Carlson(2001)等研究者采用人工標(biāo)注的方法。他們所選用的標(biāo)注者都是有過(guò)標(biāo)注經(jīng)歷的、從事語(yǔ)篇分析和新聞報(bào)道的專(zhuān)業(yè)人員。在正式標(biāo)注之前,他們都接受專(zhuān)門(mén)的語(yǔ)篇結(jié)構(gòu)標(biāo)注培訓(xùn),培訓(xùn)包括3個(gè)階段。在第一階段,向標(biāo)注者介紹修辭結(jié)構(gòu)理論和語(yǔ)篇分析工具。在培訓(xùn)的第二階段,標(biāo)注者開(kāi)始探索語(yǔ)篇結(jié)構(gòu)的特征。在培訓(xùn)的最后一個(gè)階段,標(biāo)注小組謀求在構(gòu)建語(yǔ)篇總結(jié)構(gòu)圖時(shí)保持一致
6、,盡量減少分歧。最終,標(biāo)注小組研制出兩個(gè)基本策略用于文獻(xiàn)分析并建立相關(guān)的語(yǔ)篇結(jié)構(gòu)圖。策略之一是對(duì)文本的直接分析,可以在頁(yè)邊空白處標(biāo)出記號(hào),也可以將文獻(xiàn)切分成一定的語(yǔ)段并標(biāo)出記號(hào),根據(jù)這些標(biāo)注建立語(yǔ)篇結(jié)構(gòu)圖。以這種方式建立樹(shù)型結(jié)構(gòu)圖,標(biāo)注者必須預(yù)測(cè)到隨后的語(yǔ)篇結(jié)構(gòu)。然而,其后語(yǔ)段的修辭關(guān)系,尤其是較大的語(yǔ)段,可能不是太明顯,這就是為什么這一標(biāo)注策略更適用于短篇文獻(xiàn)的標(biāo)注。另一策略是將文本分析與建立語(yǔ)篇結(jié)構(gòu)兩項(xiàng)任務(wù)同時(shí)進(jìn)行,很可能是成塊地標(biāo)注而不是循序漸進(jìn)地一步一步地增加。以這種策略進(jìn)行標(biāo)注,標(biāo)注者一次可以切分很多語(yǔ)篇單位,并為每個(gè)自然句建立結(jié)構(gòu)圖,然后將相鄰的自
7、然句連接起來(lái),構(gòu)成較大的語(yǔ)段結(jié)構(gòu)樹(shù)。最終的語(yǔ)篇結(jié)構(gòu)樹(shù)是通過(guò)連接語(yǔ)篇結(jié)構(gòu)中主要語(yǔ)塊而建成的。5.標(biāo)注質(zhì)量的檢驗(yàn)標(biāo)注質(zhì)量的控制是通過(guò)標(biāo)注者對(duì)標(biāo)注結(jié)果的反復(fù)修改和局部隨機(jī)的自動(dòng)交叉核實(shí)來(lái)實(shí)現(xiàn)的。為了確保標(biāo)注語(yǔ)料庫(kù)的質(zhì)量,研究小組采取了很多措施,這些措施主要涉及到兩個(gè)方面,即檢驗(yàn)語(yǔ)篇結(jié)構(gòu)樹(shù)的效度和保持標(biāo)注者內(nèi)部的一致性。5.1效度檢驗(yàn)效度檢驗(yàn)從兩個(gè)方面進(jìn)行,即句法和語(yǔ)義。句法檢驗(yàn)確保每棵樹(shù)只有一個(gè)根結(jié),并將樹(shù)與文獻(xiàn)進(jìn)行對(duì)比以防句子或語(yǔ)段被遺漏。語(yǔ)義檢驗(yàn)主要是關(guān)系到核心語(yǔ)段的指派、修辭關(guān)系的選擇以及語(yǔ)篇結(jié)構(gòu)樹(shù)的層次。為了保證檢驗(yàn)質(zhì)量,研究小組研制出語(yǔ)篇分析器以及圖形掃描
8、儀。所謂圖形掃描儀,就是指,在圖形環(huán)境