資源描述:
《淺談數(shù)學(xué)在信息領(lǐng)域的應(yīng)用價(jià)值》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、淺談數(shù)學(xué)在信息領(lǐng)域的應(yīng)用價(jià)值——在語(yǔ)言處理上的作用如題所言,本文主要講述的便是數(shù)學(xué)在信息領(lǐng)域中的應(yīng)用價(jià)值,但即使是這樣,泛泛而談?wù)麄€(gè)信息領(lǐng)域,還不如抓住其中一點(diǎn)來(lái)進(jìn)行闡述,表達(dá)下我對(duì)數(shù)學(xué)在信息領(lǐng)域匯中的價(jià)值的理解及看法。語(yǔ)言是人類進(jìn)行溝通和交流的最主要方式之一,相信所有人都明白和一個(gè)說(shuō)話有障礙的人進(jìn)行溝通時(shí)的困難。隨著科學(xué)技術(shù)的發(fā)展及世界一體化進(jìn)程的穩(wěn)步前行,語(yǔ)言交流的方式也不再局限于面對(duì)面、口對(duì)口的交流,更多的溝通工具被廣泛應(yīng)用于生活生產(chǎn)實(shí)際當(dāng)中;而不同國(guó)籍之間的人、不同膚色之間的人進(jìn)行對(duì)話也不再變得那么稀奇。在這樣的情況下,問(wèn)題就自然暴
2、露了:利用溝通工具和不同的語(yǔ)言進(jìn)行交流的時(shí)候,如何保證信息的正確性,或薺確切的說(shuō),如何根據(jù)獲得的信息來(lái)推測(cè)說(shuō)話者想要表達(dá)的意思呢?數(shù)學(xué)模型是一種人類用來(lái)解決生產(chǎn)生活中的實(shí)際問(wèn)題而模擬進(jìn)行的一種方法,能夠通過(guò)數(shù)據(jù)、實(shí)物、公式等方式來(lái)模擬或者解釋各個(gè)領(lǐng)域的問(wèn)題,其應(yīng)用范圍之廣,能力之強(qiáng),越來(lái)越得到科學(xué)家和數(shù)學(xué)研究者們的青睞,著名的円心說(shuō)以及地心說(shuō),就是在大大小小幾十個(gè)圓的模型上建立起來(lái)的。而對(duì)于以上的語(yǔ)言處理問(wèn)題,利用數(shù)學(xué)模型,也將該問(wèn)題進(jìn)行丫解釋。首先我們將問(wèn)題進(jìn)行梳理一番:兩個(gè)人進(jìn)行交流,一個(gè)人根據(jù)所收到的信息去猜測(cè)說(shuō)話人要表達(dá)的意思。這個(gè)
3、過(guò)程就好像是在信道當(dāng)中,根據(jù)接收到的信號(hào)去分析理解發(fā)送端信源所包含的信息。用通信系統(tǒng)的典型土里進(jìn)行分析:信息源91s2S3....接收結(jié)信道o1o2o3其中Sl,s2,s3...表示信息源發(fā)出的信號(hào),02,03...是接受器接收到的信號(hào)。而我們所要做的,就是根據(jù)接收到的信號(hào)02,03...還原出發(fā)送的伯號(hào)Si,S2,S3.??0這個(gè)過(guò)程用科學(xué)的術(shù)語(yǔ)來(lái)定義,就是所謂的“語(yǔ)音識(shí)別”。那么究競(jìng)該如何根據(jù)接收端所得到的信息來(lái)推測(cè)信息源即說(shuō)話者所想耍表達(dá)的信息呢?在上文中已經(jīng)提到,數(shù)學(xué)模型在解決這個(gè)問(wèn)題的過(guò)程中又再次發(fā)揮了其巨大的作用。用“隱含馬爾町
4、夫模型”(HiddenMarkovModel)來(lái)解決對(duì)于這些問(wèn)題,被認(rèn)為是實(shí)現(xiàn)快速精確的語(yǔ)音識(shí)別系統(tǒng)的最成功的方法。對(duì)于以上問(wèn)題,當(dāng)我們觀測(cè)到語(yǔ)音信號(hào)o2,o3...時(shí),我們要根據(jù)這組信號(hào)推測(cè)出發(fā)送的句子Sl,s2,s3。顯然,我們應(yīng)該在所有可能的句子中找最有可能性的一個(gè)。用數(shù)學(xué)語(yǔ)言來(lái)描述,就是在已知Ol,02,的情況下,求使得條件概率:P(Si?S29S3...0(,O2,O3...)達(dá)到最大值的那個(gè)句子S2,S3...0上面的概率并不容易直接求出,利用貝葉斯公式,我們有P(Si,S2>S3...Oi,O2,O3...)=P(Si,S2,
5、S3...;Oi,O2,O3...)/P(0i,O2,O3...)而P(s,,s2,s3...;obo2,o3...)=P(obo2,o3...Isi,s2,s3.??)*P(sj,S2,S3...)因此,可以得到:P(Si,S2,S3...IOi,02,0:i...)=P(ob02,03...ISi,s2,s3...)*P(s”S29S3...)/P(Oi,O2,O3...)其中的P(ob02,03...)可以得到,作為常數(shù)項(xiàng)忽略。而P(oh02,03....ISi,S2,S3...)表示某句話S,,S2,S3...被讀成0,,02,03
6、...的可能性,而P(sbs2,s3...)表示字串Sps2,s3...本身能夠成為一個(gè)合乎情理的句子的可能性,所以這個(gè)公式的意義是用發(fā)送信號(hào)為Sl,S3...這個(gè)信息列被讀成01,03...的可能性乘以Sl,s2,s3...本身可以成為一個(gè)句子的可能性,得出概率。當(dāng)然,要建立這樣的模型,需要做如下的假設(shè):①、s:,s2,s3...是一個(gè)馬爾可夫鏈,也就是說(shuō),Si只由決定);②、第i時(shí)刻的接收信號(hào)Oi只由發(fā)送信號(hào)Si決定(又稱為獨(dú)立輸出假設(shè),即P(Ch,02,03...Is,,s2,s3....)=P(ojsi)*P(02
7、S2)*P(O3
8、
9、s3).??。于是,我們便可以利用算法Viterbi找出上面式子的最大值,進(jìn)而找出要識(shí)別的句子Sl,s2,s3...。上面所述的模型即隱含馬爾可夫模型。之所以用“隱含”這個(gè)詞,是因?yàn)闋顟B(tài)&,S2,s3...是無(wú)法直接觀測(cè)到的。此方法是由上世紀(jì)70年代的賈里尼克建立的,利用隱含馬爾可夫模型來(lái)解決語(yǔ)言處理問(wèn)題,語(yǔ)咅識(shí)別的錯(cuò)誤率相比人工鋝能和模式匹配等方法降低丫2倍(從30%到10%)。而李開(kāi)復(fù)在利用隱含馬爾可夫模型的框架之下,成功地開(kāi)發(fā)了世界上第一個(gè)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)Sphinx。馬爾可夫鏈的另一個(gè)應(yīng)用便是拓展之后形成了貝葉斯網(wǎng)絡(luò)。一般
10、的馬爾可夫鏈只是描述了一種狀態(tài)序列,它的每個(gè)狀態(tài)值都由前而有限個(gè)狀態(tài)決定。而現(xiàn)實(shí)屮,往往事物之間的關(guān)系錯(cuò)綜復(fù)雜,并不能夠用一條鏈來(lái)反映問(wèn)題。舉個(gè)通俗的例子,心血管疾病和它的導(dǎo)致原