資源描述:
《面向大數(shù)據(jù)的增量式學習算法研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、學校代碼10125專業(yè)代碼120100碩士學位論文題目面向大數(shù)據(jù)的增量式學習算法研究姓名段倩倩專業(yè)管理科學與工程研究方向信息管理與知識管理所屬學院信息管理學院指導教師李愛軍二〇一五年三月九日UniversityCode10125MajorCode1201000ShanxiUniversityofFinance&EconomicsDissertationforDoctoralDegreeTitleIncrementallearningalgorithmforlargedataNameDuanQianqianMajorManage
2、mentScienceandEngineeringResearchOrientationInformationandKnowledgeManagementSchoolSchoolofInformationManagementSupervisorLiAijun2015Mar9th學位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學位論文,是本人在導師的指導下,獨立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究所做出重要貢獻的個人和集體,均已在文中以明確方式標明。
3、本人完全意識到本聲明的法律結(jié)果由本人承擔。學位論文作者簽名:日期:年月日學位論文版權使用授權書本學位論文作者完全了解學校有關保管、使用學位論文的規(guī)定,同意學校保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權山西財經(jīng)大學可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。本學位論文屬于保密□,不保密□。在年解密后適用本授權書。(請在以上方框內(nèi)打“√”)學位論文作者簽名:指導教師簽名:日期:年月日日期:年月摘要隨著數(shù)據(jù)規(guī)模快速增長,能夠處
4、理大數(shù)據(jù)集的數(shù)據(jù)挖掘算法得到了廣泛的研究和應用,成為目前研究的熱點之一。本文主要研究了面向大數(shù)據(jù)的增量式特征選擇和增量式分類學習算法。論文的主要研究工作有以下兩個內(nèi)容:(1)以條件互信息作為度量標準的基礎上進行增量式的特征選擇算法,主要通過將大數(shù)據(jù)模擬數(shù)據(jù)流并劃分為數(shù)據(jù)塊,增量對特征子集進行信息度量,提高運算效率,最終得到特征子集。為了驗證所改進的增量特征選擇算法的有效性,在UCI實驗數(shù)據(jù)集上進行模擬實驗比較分類性能。通過實驗表明,增量特征選擇(I-MIFS)算法在大多數(shù)情況下都比其他算法要好,I-MIFS算法是一種適合大規(guī)模
5、數(shù)據(jù)集的特征選擇算法。(2)在神經(jīng)網(wǎng)絡集成的基礎上研究增量式大數(shù)據(jù)學習算法:研究了運用改進的Boosting技術完成個體神經(jīng)網(wǎng)絡的生成和最后結(jié)果的集成,將分類邊界的錯分樣本作為研究目標,使集成的神經(jīng)網(wǎng)絡可以進行大數(shù)據(jù)增量學習,通過設計實驗,運用UCI數(shù)據(jù)集進行實驗,對比分析可以得到增量大數(shù)據(jù)學習算法是有效可行的實驗結(jié)果。研究基于改進的Learn++算法,使神經(jīng)網(wǎng)絡具備了大數(shù)據(jù)增量式學習的能力,解決了類別不平衡的問題。本文提出的面向大數(shù)據(jù)的增量式大數(shù)據(jù)學習算法,能夠在有限的存儲容量和計算資源情況下,分批處理大數(shù)據(jù)的分類問題,該算
6、法具有一定的社會實用價值,對以后相關的研究工作也有一定的借鑒意義。關鍵詞:大數(shù)據(jù);增量學習;互信息;特征選擇;神經(jīng)網(wǎng)絡集成ABSTRACTAlongwiththerapidgrowthofdatasize,abletohandlelargedatasetsofdataminingalgorithmhasbeenwidelyresearchandapplication,andbecomeoneofthehotspotofcurrentresearch.Thispapermainlystudiedthebigdataoriente
7、dincrementalfeatureselectionandclassificationofincrementallearningalgorithm.Papermainresearchworkhasthefollowingtwocontents:(1)withconditionalmutualinformationasthestandardformeasuringbasedonincrementalfeatureselectionalgorithm,throughtheanalysisoflargedatasimulatio
8、ndataflowisdividedintodatablocks,incrementalinformationmeasurementwascarriedoutonthefeaturesubset,improvetheoperationefficiency,eventually