資源描述:
《基于語音深度特征的手機(jī)聚類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于語音深度特征的手機(jī)聚類方法研究作者姓名張雪學(xué)科專業(yè)通信與信息系統(tǒng)指導(dǎo)教師李艷雄副教授所在學(xué)院電子與信息學(xué)院論文提交日期2018年4月ResearchonMobilePhoneClusteringBasedonDeepFeatureofSpeechADissertationSubmittedfortheDegreeofMasterCandidate:ZhangXueSupervisor:LiYan-xiongSouthChinaUniversityofTechnologyGuangzhou,China摘要隨著
2、便捷式錄音設(shè)備(特別是智能手機(jī))的普及,人們錄制的音頻數(shù)據(jù)呈爆炸式增長(zhǎng)。如何有效鑒別上述音頻數(shù)據(jù)的錄音設(shè)備是目前數(shù)字音頻取證技術(shù)的研究熱點(diǎn)之一。本文以手機(jī)錄音作為分析對(duì)象,探討基于語音深度特征的手機(jī)聚類方法。主要工作及創(chuàng)新點(diǎn)如下:(1)提出一種基于深度高斯超矢量(DeepGaussianSupervector,DGS)的手機(jī)聚類方法。首先從每個(gè)錄音樣本中提取梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficient,MFCC)特征,并輸入深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)從而提
3、取瓶頸特征(BottleneckFeature,BF)。然后,采用所有錄音樣本的BF構(gòu)建一個(gè)通用背景模型(UniversalBackgroundModel,UBM),并采用最大后驗(yàn)概率(MaximumAPosterior,MAP)算法為每個(gè)錄音樣本自適應(yīng)生成一個(gè)高斯混合模型(GaussianMixtureModel,GMM),再將每個(gè)GMM的均值矢量依次拼接成一個(gè)高斯超矢量作為該錄音樣本的深度特征,即深度高斯超矢量特征。最后,采用譜聚類(SpectralClustering,SC)算法對(duì)各錄音樣本的深度高斯超矢量進(jìn)行聚類,
4、將相同手機(jī)錄制的錄音樣本聚為一類。使用MOBIPHONE手機(jī)錄音數(shù)據(jù)庫作為實(shí)驗(yàn)數(shù)據(jù)集,以K值(平均類純度和平均手機(jī)純度的幾何平均值)、歸一化互信息量(NormalizedMutualInformation,NMI)和聚類精度(ClusteringAccuracy,CA)作為性能評(píng)價(jià)指標(biāo),實(shí)驗(yàn)討論DNN結(jié)構(gòu)設(shè)置,比較不同特征的聚類性能。實(shí)驗(yàn)結(jié)果表明:深度高斯超矢量在手機(jī)聚類時(shí)的K值、NMI和CA分別為93.81%、95.11%、96.75%,均高于其他特征的對(duì)應(yīng)值,說明本文所提取特征是有效的。(2)提?。?)中的深度高斯超矢
5、量特征時(shí),方案假定已經(jīng)預(yù)先知道用于訓(xùn)練DNN的錄音樣本標(biāo)簽,但在實(shí)際手機(jī)聚類時(shí)該先驗(yàn)信息有時(shí)不能獲取。為了克服上述不足,提出一種基于深度表征(DeepRepresentation,DR)的手機(jī)聚類方法。該方法采用深度自編碼網(wǎng)絡(luò)(DeepAutoencoderNetwork,DAN)代替DNN提取瓶頸特征,無需關(guān)于手機(jī)的任何先驗(yàn)信息。本工作以三個(gè)手機(jī)錄音數(shù)據(jù)庫作為實(shí)驗(yàn)數(shù)據(jù),討論DAN隱層參數(shù)設(shè)置,并比較不同特征、算法的聚類性能。實(shí)驗(yàn)結(jié)果表明,DR特征的性能略差于(1)中提取的DGS特征,但優(yōu)于其他特征。相比于DGS特征,DR
6、特征的優(yōu)勢(shì)是:它在提取時(shí)無需手機(jī)的任何先驗(yàn)信息。另外,本聚類方法優(yōu)于基于凝聚分層聚類的無監(jiān)督方法但稍差于基于支持向量機(jī)(SupportVectorMachine,SVM)的有監(jiān)督方法。最后,討論本方法在錄音樣本的數(shù)量不對(duì)稱、來自相同手機(jī)型號(hào)、來自相同說話人等特殊條件下的性能I表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本方法在上述條件下也有較好的表現(xiàn)。綜上所述,本文以手機(jī)錄音作為分析對(duì)象,基于深度學(xué)習(xí)技術(shù)提取刻畫手機(jī)內(nèi)在特性的深度特征,提出基于語音深度特征的手機(jī)聚類方法,從多個(gè)側(cè)面實(shí)驗(yàn)分析本文方法的性能表現(xiàn),并與文獻(xiàn)報(bào)道的方法進(jìn)行比較,驗(yàn)證本文方
7、法的有效性。關(guān)鍵詞:手機(jī)聚類;深度高斯超矢量;深度表征;譜聚類;數(shù)字語音取證IIAbstractWiththepopularityofportablerecordingdevices(especiallysmartphones),therecordedaudiodatahasbeenexploded.Howtoeffectivelyidentifytherecordingequipmentisoneofthehottopicsinthefieldofdigitalaudioforensics.Inthisthesis,we
8、investigatesomemethodsformobilephoneclusteringbasedonthedeepfeatureofspeechfromspeechrecordings.Themainworksandinnovationsareasfollows:(1)Weproposeameth