資源描述:
《學(xué)位論文-07720172-朱昱倍》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、上海大學(xué)碩士學(xué)位論文2010年5月中圖分類號(hào):?jiǎn)挝淮?hào):10280密級(jí):學(xué)號(hào):07720172碩士學(xué)位論文SHANGHAIUNIVERSITYMASTERDISSERTATION題目蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究作者朱昱倍學(xué)科專業(yè)物理化學(xué)導(dǎo)師陸文聰教授完成日期二零壹零年五月62上海大學(xué)碩士學(xué)位論文2010年5月上海大學(xué)本論文經(jīng)答辯委員會(huì)全體委員審查,確認(rèn)符合上海大學(xué)碩士學(xué)位論文質(zhì)量要求。答辯委員會(huì)簽名:主任:委員:導(dǎo)師:答辯日期:62上海大學(xué)碩士學(xué)位論文2010年5月原創(chuàng)性聲明本人聲明:所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作。除了文中特別加以標(biāo)
2、注和致謝的地方外,論文中不包含其他人已發(fā)表或撰寫(xiě)過(guò)的研究成果。參與同一工作的其他同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示了謝意。簽名:日期:本論文使用授權(quán)說(shuō)明本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留論文及送交論文復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:62上海大學(xué)碩士學(xué)位論文2010年5月上海大學(xué)理學(xué)碩士學(xué)位論文蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究姓名:朱昱倍導(dǎo)師:陸文聰教授學(xué)科專業(yè):物理化學(xué)上海大學(xué)理學(xué)院二零壹零年五月62上海大學(xué)碩
3、士學(xué)位論文2010年5月ADissertationSubmittedtoShanghaiUniversityfortheMaster’sDegreeinScienceUsingMachineLearningMethodsInInvesigationofProtein’sBiologicalFunctionsM.D.Candidate:ZhuYubeiSupervisor:Prof.LuWencongMajor:PhysicalChemistryScienceCollege,ShanghaiUniversityMay,201062上海大學(xué)碩士學(xué)位論文20
4、10年5月摘要近些年來(lái),隨著信息技術(shù)和生物檢測(cè)手段的不斷發(fā)展,生命科學(xué)的數(shù)據(jù)資源急劇膨脹。實(shí)驗(yàn)工作者在產(chǎn)生大量數(shù)據(jù)的同時(shí),也對(duì)理論研究者提出了更多的難題。利用機(jī)器學(xué)習(xí)這一方法來(lái)分析這些數(shù)據(jù),我們可以從中找出隱含的規(guī)律和模式,從而進(jìn)一步加深對(duì)事物的認(rèn)識(shí)。本文就是采取這一研究方法,對(duì)蛋白質(zhì)的生物功能進(jìn)行建模和預(yù)報(bào)。在本文的工作中,我們使用了機(jī)器學(xué)習(xí)方法來(lái)對(duì)蛋白質(zhì)和小分子的相互作用、蛋白質(zhì)糖基化位點(diǎn)的識(shí)別進(jìn)行建模和預(yù)報(bào)。另外我們還探討了一系蛋白質(zhì)列生物功能在線預(yù)報(bào)系統(tǒng)的建設(shè)和優(yōu)化。本文的主體工作分為三個(gè)部分:1.用集成學(xué)習(xí)算法對(duì)蛋白質(zhì)和小分子的相互作用進(jìn)行研
5、究。我們針對(duì)代謝途徑下的酶和底物之間的相關(guān)作用,建立了相互作用預(yù)報(bào)模型。通過(guò)對(duì)數(shù)據(jù)集的變量篩選和降維的評(píng)價(jià),我們保留了原有的變量集合。在后續(xù)的建模過(guò)程中分別用AdaBoost,Bagging,SVM,KNN,決策樹(shù)對(duì)酶和底物進(jìn)行建模。10組交叉驗(yàn)證和獨(dú)力測(cè)試集的結(jié)構(gòu)顯示,集成學(xué)習(xí)方法AdaBoost,Bagging的分類能力最好,都達(dá)到了71%以上。而我們接著又把不同的分類器組合集成后發(fā)現(xiàn),前2個(gè)性能最好的集成學(xué)習(xí)算法和KNN組合后的體系具有最好的推廣能力,其獨(dú)立測(cè)試集中正樣本的正確率又在原先最好的結(jié)果下提高了近4%,而其總體正確率也達(dá)到了84.6%。
6、結(jié)果證明,多重集成學(xué)習(xí)算法可以用來(lái)研究蛋白質(zhì)和小分子相互作用,所得到的模型有很好的預(yù)測(cè)性能。此外,我們根據(jù)所建立的酶和底物相互作用的預(yù)測(cè)模型,同時(shí)開(kāi)發(fā)了相應(yīng)的在線預(yù)報(bào)系統(tǒng)。2.用CFS-Wrapper篩選變量法結(jié)合AdaBoost集成方法對(duì)蛋白質(zhì)O端糖基化位點(diǎn)進(jìn)行研究。在許多的生化過(guò)程中都需要有O-端糖鏈的參與。然而糖基化是一個(gè)復(fù)雜的過(guò)程,迄今為止還未得出一個(gè)固定的模式。我們對(duì)收集到的糖基化和非糖基化肽段,并用肽段中殘基的物化參數(shù),以AAIndex庫(kù)中的數(shù)據(jù)進(jìn)行表征。62上海大學(xué)碩士學(xué)位論文2010年5月分別嘗試了CFS方法以及PCA主成分變換進(jìn)行變量
7、篩選。在進(jìn)行初步的變量篩選后,分別用SVM、KNN、C4.5、AdaBoost、Bagging對(duì)不同的變量篩選方法進(jìn)行多組交叉驗(yàn)證和獨(dú)立測(cè)試集的評(píng)價(jià)。接著確定以AdaBoost建模和CFS變量篩選結(jié)果為基礎(chǔ),做進(jìn)一步的Wrapper篩選。最終篩選出23個(gè)變量的子集。其十組交叉驗(yàn)證正確率在88.1%、獨(dú)立測(cè)試集正確率在87.5%。根據(jù)該模型,我們開(kāi)發(fā)了蛋白質(zhì)糖基化點(diǎn)位的在線預(yù)報(bào)系統(tǒng)。1.利用Java網(wǎng)頁(yè)技術(shù)、weka軟件、第三方開(kāi)發(fā)包等工具開(kāi)發(fā)出了一系列蛋白質(zhì)生物功能在線預(yù)報(bào)系統(tǒng)。我們分別從設(shè)計(jì)原理,實(shí)現(xiàn)方法以及優(yōu)化手段等提出了自己的看法和見(jiàn)解。這些在線
8、預(yù)報(bào)系統(tǒng)涉及到亞細(xì)胞定位、翻譯后修飾、蛋白質(zhì)相互作用、酶和底物作用等方面的內(nèi)容。其中采取MVC