資源描述:
《基于某BP神經(jīng)網(wǎng)絡(luò)地語(yǔ)音識(shí)別技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、實(shí)用文檔上海海事大學(xué)神經(jīng)網(wǎng)絡(luò)與語(yǔ)音識(shí)別院系:物流工程學(xué)院課程名稱:制造與物流決策支持系統(tǒng)學(xué)生姓名:學(xué)號(hào):時(shí)間:文案大全實(shí)用文檔目錄一.緒論31.1研究背景及意義31.2語(yǔ)音識(shí)別的國(guó)內(nèi)外研究現(xiàn)狀31.3研究?jī)?nèi)容4二.語(yǔ)音識(shí)別技術(shù)52.1語(yǔ)音信號(hào)52.2語(yǔ)音信號(hào)的數(shù)學(xué)模型52.3語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)62.4語(yǔ)音信號(hào)預(yù)處理72.4.1語(yǔ)音信號(hào)的采樣82.4.2語(yǔ)音信號(hào)的分幀82.4.3語(yǔ)音信號(hào)的預(yù)加重92.4.4基于短時(shí)能量和過零率的端點(diǎn)檢測(cè)92.5特征參數(shù)提取12三.基于BP神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別算法實(shí)現(xiàn)143.1BP神經(jīng)網(wǎng)絡(luò)原理143.2輸入層神經(jīng)元個(gè)數(shù)的
2、確定143.3網(wǎng)絡(luò)隱含層數(shù)的確定153.4隱含層神經(jīng)元個(gè)數(shù)的確定153.5BP神經(jīng)網(wǎng)絡(luò)構(gòu)造153.6BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練163.6.1訓(xùn)練樣本集合和目標(biāo)值集合163.6.2網(wǎng)絡(luò)訓(xùn)練16文案大全實(shí)用文檔3.7網(wǎng)絡(luò)訓(xùn)練173.8語(yǔ)音的識(shí)別結(jié)果18四.總結(jié)19參考文獻(xiàn)20附錄21文案大全實(shí)用文檔一.緒論計(jì)算機(jī)的飛速發(fā)展,使人們的生活方式發(fā)生了根本性的改變,鼠標(biāo)、鍵盤,這些傳統(tǒng)的人機(jī)接口使人們體會(huì)到了生活的便利??茖W(xué)技術(shù)日新月異,假如讓“機(jī)器”能夠聽懂人的語(yǔ)言,并根據(jù)其信息去執(zhí)行人的意圖,那么這無(wú)疑是最理想的人機(jī)智能接口方式,因此語(yǔ)音識(shí)別作為一門極具吸引
3、力的學(xué)科應(yīng)運(yùn)而生,很多專家都指出語(yǔ)音識(shí)別技術(shù)將是未來十年信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別(SpeechRecognition)是指,計(jì)算機(jī)從人類獲取語(yǔ)音信息,對(duì)語(yǔ)音信息進(jìn)行分析處理,準(zhǔn)確地識(shí)別該語(yǔ)音信息的內(nèi)容、含義,并對(duì)語(yǔ)音信息響應(yīng)的過程。語(yǔ)音信號(hào)具有非穩(wěn)定隨機(jī)特性,這使得語(yǔ)音識(shí)別的難度大。目前人類甚至仍沒有完全理解自身聽覺神經(jīng)系統(tǒng)的構(gòu)造與原理,那么要求計(jì)算機(jī)能像人類一樣地識(shí)別語(yǔ)音信號(hào)很有挑戰(zhàn)性。1.1研究背景及意義語(yǔ)言在人類的智能組成中充當(dāng)著很重要的角色,人與人之間的交流和溝通大部分是通過語(yǔ)言的方式有效的完成。作為人與人之問交
4、流最方便、自然、快捷的手段,人們自然希望它成為人與計(jì)算機(jī)交流的媒介。隨著數(shù)字信號(hào)處理及計(jì)算機(jī)科學(xué)的飛速發(fā)展,人們對(duì)實(shí)現(xiàn)人機(jī)對(duì)話產(chǎn)生越來越迫切的要求,使得語(yǔ)音識(shí)別技術(shù)近年來得到了迅速的發(fā)展,語(yǔ)音識(shí)別技術(shù)的研究進(jìn)入了一個(gè)比較成熟的時(shí)期。語(yǔ)音識(shí)別是一門交叉科學(xué),它綜合了聲學(xué)、語(yǔ)言學(xué)、語(yǔ)音學(xué)、生理科學(xué)、數(shù)字信號(hào)處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等眾多學(xué)科。也是人機(jī)交互最重要的一步。1.2語(yǔ)音識(shí)別的國(guó)內(nèi)外研究現(xiàn)狀文案大全實(shí)用文檔通過語(yǔ)音傳遞信息是人類最重要,最有效,和最方便的交換信息的形式,語(yǔ)音識(shí)別主要指讓機(jī)器轉(zhuǎn)達(dá)人說的話,即在各種
5、情況下,準(zhǔn)確的識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。廣義的語(yǔ)音識(shí)別包括說話人的識(shí)別和內(nèi)容的識(shí)別兩部分。這里所說的語(yǔ)音識(shí)別,是指內(nèi)容識(shí)別方面。采用計(jì)算機(jī)進(jìn)行語(yǔ)音識(shí)別到現(xiàn)在已經(jīng)發(fā)展了50年。從特征參數(shù)上改進(jìn),采用各種辦法進(jìn)行語(yǔ)音增強(qiáng)是一個(gè)研究方向,但是到目前為止,還沒有一種辦法能把語(yǔ)音信號(hào)完美地從噪音環(huán)境提取出來。語(yǔ)音識(shí)別有廣泛的商業(yè)化運(yùn)用前景,主要可以分為通用場(chǎng)合和專用場(chǎng)合兩個(gè)方面。1.3研究?jī)?nèi)容本文研究的主要內(nèi)容是結(jié)合模式識(shí)別的基本理論,研究BP神經(jīng)網(wǎng)絡(luò)孤立詞語(yǔ)音識(shí)別的問題,實(shí)現(xiàn)1-5共5個(gè)數(shù)字的識(shí)別。分析了語(yǔ)音信號(hào)的預(yù)處理,特征
6、提取及BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)。文案大全實(shí)用文檔二.語(yǔ)音識(shí)別技術(shù)2.1語(yǔ)音信號(hào)語(yǔ)音信號(hào)是隨時(shí)間變化的一維信號(hào),由一連串的音素組成,各個(gè)音素的排列有一定的規(guī)則。語(yǔ)音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語(yǔ)音信號(hào)的頻譜分量主要集中在200~3400Hz的范圍內(nèi)。語(yǔ)音信號(hào)的另一個(gè)重要特點(diǎn)是它的短時(shí)性。語(yǔ)音信號(hào)的特征是隨時(shí)間變化而變化,只有在一段很短的時(shí)間間隔中,才保持相對(duì)穩(wěn)定的特性。研究表明,在5ms~40ms的范圍內(nèi)語(yǔ)音信號(hào)的頻譜特性和一些物理特征基本保持不變。語(yǔ)音信號(hào)短時(shí)特征和短時(shí)參數(shù)包括它的短時(shí)能量、短時(shí)過零率、短時(shí)相關(guān)函數(shù)、短時(shí)頻譜
7、等。語(yǔ)音信號(hào)的最基本組成單位是音素。音素可分成濁音和清音兩大類。如果將只有背景噪聲的情況定義為“無(wú)聲”,那么音素可分成“無(wú)聲”、“濁音”和“清音”三類。在短時(shí)分析的基礎(chǔ)上可以判斷一小段語(yǔ)音屬于哪一類。如果是濁語(yǔ)音段,還可測(cè)定它的另一些重要參數(shù),如基音頻率和共振峰等。2.2語(yǔ)音信號(hào)的數(shù)學(xué)模型建立語(yǔ)音信號(hào)的數(shù)學(xué)模型是語(yǔ)音信號(hào)處理的基礎(chǔ)。從人的發(fā)音器官的機(jī)理來假設(shè),將語(yǔ)音信號(hào)分為一些相繼的短段進(jìn)行處理,在這些短段中可以認(rèn)為語(yǔ)音信號(hào)特征是不隨著時(shí)間變化的平穩(wěn)隨機(jī)過程。這樣在這些短段時(shí)間內(nèi)表示語(yǔ)音信號(hào)時(shí)可以采用線性時(shí)不變模型。通過上面的分析,將語(yǔ)音生成系
8、統(tǒng)分成三個(gè)部分,喉的部分稱為聲門,在聲門(聲帶)以下,稱為“聲門子系統(tǒng)”,它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng),是“激勵(lì)系統(tǒng)”。從聲門到嘴唇的呼氣通道是聲道,是“聲道系