資源描述:
《計算語言學(xué)廈大應(yīng)用語言學(xué)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、計算語言學(xué)一、計算語言學(xué)的定義:是利用計算計研究和處理自然語言的學(xué)科。狹義:指的是通過建立形式化的計算模型,用計算機分析、處理、理解并生成自然語言的學(xué)科。例:“有意見分歧”算一算怎么切分合理是“有意見分歧”還是:“有意見分歧”?廣義:包括狹義的內(nèi)容;還包括利用計算機對語言文字進行的各種定量化和精密化的研究。例1:中國《紅樓夢》的作者:前八十回和后四十回是不是一個人。例2:方言親屬關(guān)系的計量:二、計算語言學(xué)的發(fā)展:計算語言學(xué)的研究首先是從機器翻譯開始的。1、《圣經(jīng)·創(chuàng)世紀(jì)》中“巴比塔”的傳說。2、17世紀(jì)中葉展開的“普遍語言”的運動
2、,旨在運用邏輯原則和圖形符號的基礎(chǔ)上,創(chuàng)造出一種無歧義的語言。3、20世紀(jì)30年代,法國工程師提出了用機器進行語言翻譯的想法,并在1933年7月獲得了一項“翻譯機”的專利,叫做“機械腦”。4、1946年,美國研制出第一臺電子計算機,人們開始用計算機進行翻譯的嘗試,當(dāng)時采用的是詞對詞的策略,所以翻譯效果不理想。如:Idon'tknowtheboywhoiswaitingoutside.5、在1960年代初期,計算語言學(xué)曾因做機器翻譯的應(yīng)用研究,受到各國政府的大力支持而風(fēng)光一時,然而一直沒有滿意的成績。于是美國政府委托國家科學(xué)院評估機
3、器翻譯的計劃。1966年該評估報告指出:當(dāng)時的研究是沒有希望做好機器翻譯的。6、人們在失敗中得到啟發(fā),認(rèn)為要搞好自動翻譯,必須在語言理論和計算機科學(xué)兩方面下足功夫,其中尤其語言處理理論的研究,人們認(rèn)識到,如果計算機無法理解自然語言,機器翻譯等只能是空中樓閣。7、計算語言學(xué)的進一步發(fā)展音字轉(zhuǎn)換:語音識別自動文摘:自動給出一篇或多篇文章的摘要信息檢索:在海量的信息準(zhǔn)確找到你所需要的信息信息過濾:從信息流中篩選出特定的的信息(信息安全、突發(fā)事件)…………三、計算語言學(xué)的學(xué)科分類:就理論研究來看,計算機語言學(xué)還可以分為計算語音學(xué)、計算詞匯
4、學(xué)、計算語法學(xué)、計算語義學(xué)、語料庫語言學(xué)等不同的分支學(xué)科。(一)、計算語音學(xué):研究如何用計算機對語音信息進行處理,實現(xiàn)語音的自動識別和合成。語音識別:機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音合成:將可視的文本信息轉(zhuǎn)化為可聽的語音信息。一般來說,完整的語音識別要經(jīng)歷三個步驟:(1)、語音特征提?。耗康氖菑恼Z音波形中提取隨時間變化的語音特征序列。(2)、聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,得到最佳的識別結(jié)果。
5、(3)、計算機對識別結(jié)果進行語法、語義分析。明白語言的意義以便作出相應(yīng)的反應(yīng)。通常是通過語言模型來實現(xiàn)。清華大學(xué)電子工程系,非特定人漢語連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%,接近實用水平語音識別特定人非特定人大詞匯量小詞匯量孤立發(fā)音連續(xù)發(fā)音中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%滿足通常應(yīng)用的要求一些用戶交換機、電話機、手機已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機票、旅游、銀行信息,并且取得很好的結(jié)果。全球語音識別電話軟件年銷售收入達上億美元
6、。5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%。(二)、計算詞匯學(xué):研究如何用計算機處理自然語言的詞匯。他笑了桌子笑了桌子搬走了。(三)計算語法學(xué):研究如何用計算機來分析自然語言的語法。這種研究在計算語言學(xué)中叫做自動語法分析。花開了花錢了(四)語料庫語言學(xué):語料庫(corpus)亦稱語庫或素材,是收集并科學(xué)地組織起來的一套語言材料,這種材料是某種語言中自然出現(xiàn)的,可以是書面的,也可以是口頭的。語料庫語言學(xué)(corpuslinguistics)是以語料庫中的語篇(text)語料為基礎(chǔ)對語言進行研究的一門學(xué)科。
7、四、漢字的信息處理(一)、漢字與信息處理筆、墨、紙、硯甲、骨、金、木泥、木印刷術(shù);鉛、打字機磁、光、電子計算機漢字面向人閱讀筆畫書寫人機互動、編碼輸入、自動識別約公元1915年漢字機約公元1050年機械性質(zhì)的整字書寫(二)、漢字輸入漢字輸入漢字鍵盤輸入漢字識別(OCR)語音識別印刷體:單體、多體聯(lián)機手寫脫機手寫1、漢字鍵盤輸入漢字形碼輸入漢字音碼輸入音形碼
8、形音碼輸入漢字鍵盤輸入王碼五筆字型鄭碼T9筆畫輸入法全拼,雙拼,智能ABC,微軟拼音,紫光拼音,智能狂拼極點五筆五碼智拼輸入法大眾形音輸入法母字全能碼字→詞、詞組→句子;普通話
9、→地方拼音輸入(廣東拼音)編碼的優(yōu)缺點(1)形碼的優(yōu)點按字型編碼,重碼率低,最多四碼(不超過1萬字,理論上講可以做到一碼一字),適合專業(yè)錄入員錄入寫好的文本;無需顧及讀音,對講不好普通話的人適用;不認(rèn)識的漢字照“樣”可以輸入。形碼的缺點要記憶的東西