多通道用戶界面的設(shè)計(jì).docx

多通道用戶界面的設(shè)計(jì).docx

ID:52684513

大?。?9.24 KB

頁數(shù):3頁

時(shí)間:2020-03-29

多通道用戶界面的設(shè)計(jì).docx_第1頁
多通道用戶界面的設(shè)計(jì).docx_第2頁
多通道用戶界面的設(shè)計(jì).docx_第3頁
資源描述:

《多通道用戶界面的設(shè)計(jì).docx》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、青島理工大學(xué)人機(jī)交互實(shí)驗(yàn)設(shè)計(jì)報(bào)告院(系):專業(yè):學(xué)生姓名:班級學(xué)號:題目:__多通道用戶界面的設(shè)計(jì)_____起迄日期:_完成日期:2015年7月2日語音識別綜述:隨著信息技術(shù)的高速發(fā)展和人類對計(jì)算機(jī)的依賴性不斷增強(qiáng),人機(jī)交互能力越來越受到研究者的重視。如何實(shí)現(xiàn)計(jì)算機(jī)的擬人化,使其能感知周圍的環(huán)境和氣氛以及對象的態(tài)度、情感的內(nèi)容,自適應(yīng)地為對話對象提供最舒適的對話環(huán)境,盡量消除操作者和機(jī)器之間的障礙,已經(jīng)成為下一代計(jì)算機(jī)發(fā)展的目標(biāo)。顯然,人的大腦所表現(xiàn)出來的心智現(xiàn)象不僅僅體“智”的方面,而且還體現(xiàn)

2、在“心”的方面。人工智能已經(jīng)不僅僅把研究重點(diǎn)放在對人腦智能實(shí)現(xiàn)上,而且也開展了對情感和意識方面的研究。一般認(rèn)為情感是通過語言、姿態(tài)、音樂和行為等表達(dá)模式來進(jìn)行交流的,而其中語音信號中的情感信息處理的研究正越來越受到人們的重視。顧名思義,語音情感識別包括語音識別和情感識別兩大領(lǐng)域,而情感識別中又包括諸如心理學(xué)、生理學(xué)等多個(gè)學(xué)科,所以如果要想使計(jì)算機(jī)準(zhǔn)確的在語音中提取出說話人所表達(dá)情,就必須要從多方面知識領(lǐng)域著手。目前有許多關(guān)于語音和情感之間相互聯(lián)系的研究,如美國、日本、歐洲、韓國等許多國家的一些研

3、究單位都在進(jìn)行情感語音處理研究工作。語音情感識別技術(shù)的用途非常廣泛,可以用來設(shè)計(jì)人性化的語音人機(jī)界面;可以用于互動影視;可以用于輔助語音識別;可以用于情感翻譯;還可以用在測謊、電子游戲和輔助心理治療等方面。語音情感的特征提?。阂话銇碚f,語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來。語音情感的變化通??梢泽w現(xiàn)為語音特征參數(shù)的變化。統(tǒng)計(jì)分析表明,高興時(shí),通常是語速較快,音量較大;悲傷時(shí),通常是語速緩慢,音量較小?;羰亲畛S玫呐卸ㄇ楦械恼Z音特征,它反映了超音段的信息。在語音情感識別中使用的特征參數(shù)

4、有基頻(Pitch),其次才是能量(Energy)、語速(Speech?Rate)、共振峰頻率(Formant)、單個(gè)音節(jié)的持續(xù)時(shí)間(Duration)、音節(jié)之間的停頓時(shí)間(Pause)、線性預(yù)測系數(shù)(LPC)、Mel倒譜系數(shù)(MFCC)等,以及它們的各種變化形式,如最大值、最小值、均值、范圍、變化率等等。這些參數(shù)主要體現(xiàn)的是人體的聲門和聲道的特征,因此和人的生理構(gòu)造有著密切的關(guān)系,在不同的個(gè)體上顯現(xiàn)出較強(qiáng)的相異性。Dellaerat等人主要使用了基音輪廓線,來區(qū)分悲傷、生氣、高興和害怕,識別率

5、能達(dá)到60-65%。Seppanen等人在利用韻律學(xué)對芬蘭語進(jìn)行語音情感識別時(shí),提出了共43種情感參數(shù),其中基音部分包括基音均值、中值、最大值、最小值、基音范圍等參數(shù),對于單個(gè)確定人的情感識別取得了80.7%的識別率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、說話速率等參數(shù)對五種情感識別取得了很好的效果,平均識別率達(dá)到70%。McGilloway等人研究了高興、生氣、悲傷、害怕和正常這五種情感狀態(tài)的分類,從能量、基音的運(yùn)動軌跡中抽取了32個(gè)潛在的特征,得到了55%的識別率。以下

6、比較詳細(xì)地分析一下常用的特征。語音情感識別的方法與手段:各種模式識別方法,如線性判別分類(Linear?Discriminant?Classifier),K最近鄰法(K-Nearest?Neighborhood)、支持向量機(jī)(Support?Vector?Machine)、高斯混合模型(Gaussian?Mixtures)、隱馬爾可夫模型(Hidden?Markov?Model)等,都被應(yīng)用于語音的情感識別。許多學(xué)者針對這些情感語音的特征,比較了不同的分類方法能夠達(dá)到的不同效果。在這些分類方法中

7、,人工神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的性能比較出色。??在模式識別方面,各國研究人員在語音情感信息處理領(lǐng)域幾乎利用了所有的模式識別手段,新的方法的應(yīng)用和對比層出不窮。Chul?Min?Lee等把語音情感識別歸結(jié)為模式識別問題,并提出了三種方法[9]:線性判別分類(LDC),K最近鄰法(k-NN),支持向量機(jī)(SVC)。LDC是帶有高斯概率分布的參數(shù)方法,估算完參數(shù)的均值和方差后,LDC利用貝葉斯準(zhǔn)則計(jì)算出最大后驗(yàn)概率對情感進(jìn)行分類。K-NN方法通過計(jì)算k領(lǐng)域的平均均值估算每類情感的局部后驗(yàn)概率。在SV

8、C方法中,用非線性的映射方法將輸入向量映射到更高維的特征空間中進(jìn)行計(jì)算。Tin?Lay?New等采用了Mel頻率語音能量系數(shù)和HMM分類方法[10],將語音信號分成16ms一幀的互相重疊的窗口,每一段語音幀都用12Mel頻率下邊帶能量評價(jià)準(zhǔn)則來進(jìn)行參數(shù)化,對參數(shù)化后的再用矢量量化器進(jìn)行編碼。在系統(tǒng)的訓(xùn)練階段,按照分類情感訓(xùn)練生成的碼本,訓(xùn)練產(chǎn)生4狀態(tài)各態(tài)歷經(jīng)HMM。在識別階段,把沒有經(jīng)過事先分類的語音進(jìn)行特征編碼,之后用已經(jīng)訓(xùn)練好的HMM進(jìn)行識別,識別后的輸出有五類,第一類輸出是憤怒,第二類為傷

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。