計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)

計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)

ID:39833929

大?。?28.50 KB

頁數(shù):41頁

時(shí)間:2019-07-12

計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)_第1頁
計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)_第2頁
計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)_第3頁
計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)_第4頁
計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)_第5頁
資源描述:

《計(jì)算語言學(xué)——廈大應(yīng)用語言學(xué)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、計(jì)算語言學(xué)一、計(jì)算語言學(xué)的定義:是利用計(jì)算計(jì)研究和處理自然語言的學(xué)科。狹義:指的是通過建立形式化的計(jì)算模型,用計(jì)算機(jī)分析、處理、理解并生成自然語言的學(xué)科。例:“有意見分歧”算一算怎么切分合理是“有意見分歧”還是:“有意見分歧”?廣義:包括狹義的內(nèi)容;還包括利用計(jì)算機(jī)對(duì)語言文字進(jìn)行的各種定量化和精密化的研究。例1:中國《紅樓夢(mèng)》的作者:前八十回和后四十回是不是一個(gè)人。例2:方言親屬關(guān)系的計(jì)量:二、計(jì)算語言學(xué)的發(fā)展:計(jì)算語言學(xué)的研究首先是從機(jī)器翻譯開始的。1、《圣經(jīng)·創(chuàng)世紀(jì)》中“巴比塔”的傳說。2、17世紀(jì)中葉展開的“普遍語言”的運(yùn)動(dòng),旨在運(yùn)用邏輯原則和圖形符號(hào)的

2、基礎(chǔ)上,創(chuàng)造出一種無歧義的語言。3、20世紀(jì)30年代,法國工程師提出了用機(jī)器進(jìn)行語言翻譯的想法,并在1933年7月獲得了一項(xiàng)“翻譯機(jī)”的專利,叫做“機(jī)械腦”。4、1946年,美國研制出第一臺(tái)電子計(jì)算機(jī),人們開始用計(jì)算機(jī)進(jìn)行翻譯的嘗試,當(dāng)時(shí)采用的是詞對(duì)詞的策略,所以翻譯效果不理想。如:Idon'tknowtheboywhoiswaitingoutside.5、在1960年代初期,計(jì)算語言學(xué)曾因做機(jī)器翻譯的應(yīng)用研究,受到各國政府的大力支持而風(fēng)光一時(shí),然而一直沒有滿意的成績(jī)。于是美國政府委托國家科學(xué)院評(píng)估機(jī)器翻譯的計(jì)劃。1966年該評(píng)估報(bào)告指出:當(dāng)時(shí)的研究是沒有希望

3、做好機(jī)器翻譯的。6、人們?cè)谑≈械玫絾l(fā),認(rèn)為要搞好自動(dòng)翻譯,必須在語言理論和計(jì)算機(jī)科學(xué)兩方面下足功夫,其中尤其語言處理理論的研究,人們認(rèn)識(shí)到,如果計(jì)算機(jī)無法理解自然語言,機(jī)器翻譯等只能是空中樓閣。7、計(jì)算語言學(xué)的進(jìn)一步發(fā)展音字轉(zhuǎn)換:語音識(shí)別自動(dòng)文摘:自動(dòng)給出一篇或多篇文章的摘要信息檢索:在海量的信息準(zhǔn)確找到你所需要的信息信息過濾:從信息流中篩選出特定的的信息(信息安全、突發(fā)事件)…………三、計(jì)算語言學(xué)的學(xué)科分類:就理論研究來看,計(jì)算機(jī)語言學(xué)還可以分為計(jì)算語音學(xué)、計(jì)算詞匯學(xué)、計(jì)算語法學(xué)、計(jì)算語義學(xué)、語料庫語言學(xué)等不同的分支學(xué)科。(一)、計(jì)算語音學(xué):研究如何用計(jì)

4、算機(jī)對(duì)語音信息進(jìn)行處理,實(shí)現(xiàn)語音的自動(dòng)識(shí)別和合成。語音識(shí)別:機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音合成:將可視的文本信息轉(zhuǎn)化為可聽的語音信息。一般來說,完整的語音識(shí)別要經(jīng)歷三個(gè)步驟:(1)、語音特征提?。耗康氖菑恼Z音波形中提取隨時(shí)間變化的語音特征序列。(2)、聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。(3)、計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便作出相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。清華大學(xué)電子工程

5、系,非特定人漢語連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%,接近實(shí)用水平語音識(shí)別特定人非特定人大詞匯量小詞匯量孤立發(fā)音連續(xù)發(fā)音中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%滿足通常應(yīng)用的要求一些用戶交換機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。全球語音識(shí)別電話軟件年銷售收入達(dá)上億美元。5000詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%。(二)、計(jì)算詞匯學(xué):研究如何用計(jì)算機(jī)處理自然語言的詞匯。他笑了桌子笑了桌子搬走了

6、。(三)計(jì)算語法學(xué):研究如何用計(jì)算機(jī)來分析自然語言的語法。這種研究在計(jì)算語言學(xué)中叫做自動(dòng)語法分析。花開了花錢了(四)語料庫語言學(xué):語料庫(corpus)亦稱語庫或素材,是收集并科學(xué)地組織起來的一套語言材料,這種材料是某種語言中自然出現(xiàn)的,可以是書面的,也可以是口頭的。語料庫語言學(xué)(corpuslinguistics)是以語料庫中的語篇(text)語料為基礎(chǔ)對(duì)語言進(jìn)行研究的一門學(xué)科。四、漢字的信息處理(一)、漢字與信息處理筆、墨、紙、硯甲、骨、金、木泥、木印刷術(shù);鉛、打字機(jī)磁、光、電子計(jì)算機(jī)漢字面向人閱讀筆畫書寫人機(jī)互動(dòng)、編碼輸入、自動(dòng)識(shí)別約公元1915年漢字

7、機(jī)約公元1050年機(jī)械性質(zhì)的整字書寫(二)、漢字輸入漢字輸入漢字鍵盤輸入漢字識(shí)別(OCR)語音識(shí)別印刷體:?jiǎn)误w、多體聯(lián)機(jī)手寫脫機(jī)手寫1、漢字鍵盤輸入漢字形碼輸入漢字音碼輸入音形碼

8、形音碼輸入漢字鍵盤輸入王碼五筆字型鄭碼T9筆畫輸入法全拼,雙拼,智能ABC,微軟拼音,紫光拼音,智能狂拼極點(diǎn)五筆五碼智拼輸入法大眾形音輸入法母字全能碼字→詞、詞組→句子;普通話→地方拼音輸入(廣東拼音)編碼的優(yōu)缺點(diǎn)(1)形碼的優(yōu)點(diǎn)按字型編碼,重碼率低,最多四碼(不超過1萬字,理論上講可以做到一碼一字),適合專業(yè)錄入員錄入寫好的文本;無需顧及讀音,對(duì)講不好普通話的人適用;不認(rèn)識(shí)的漢字照

9、“樣”可以輸入。形碼的缺點(diǎn)要記憶的東西

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。