資源描述:
《基于序列的蛋白質(zhì)-DNA相互作用分析.pdf》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、基于序列的蛋白質(zhì)-DNA相互作用分析與機(jī)器學(xué)習(xí)預(yù)測(cè)11,*鄒傳新,李洪林1上海市新藥設(shè)計(jì)重點(diǎn)實(shí)驗(yàn)室,華東理工大學(xué)藥學(xué)院,上海市梅隴路130號(hào),200237*Email:zzucxyz@163.com蛋白質(zhì)與DNA間的相互作用是細(xì)胞生命活動(dòng)的基礎(chǔ),因此采用高效的生物信息學(xué)的方法判斷和預(yù)測(cè)DNA結(jié)合蛋白以及DNA與蛋白質(zhì)間作用位點(diǎn)是后基因組時(shí)代的研究熱點(diǎn)。本研究綜合相關(guān)的文獻(xiàn)方法和數(shù)據(jù)資源,統(tǒng)計(jì)分析蛋白質(zhì)-DNA的相互作用特征。通過(guò)基于蛋白質(zhì)序列計(jì)算得到序列進(jìn)化信息和蛋白質(zhì)的物化性質(zhì)特征,結(jié)合自變協(xié)方差(auto-covariance)的
2、方法獲取描述符來(lái)訓(xùn)練并優(yōu)化支持向量機(jī)模型,最后得到一種簡(jiǎn)單高效的預(yù)測(cè)蛋白質(zhì)-DNA相互作用的方法。該方法對(duì)于DNA結(jié)合蛋白的預(yù)測(cè)結(jié)果如下:AUC面積為0.86時(shí),數(shù)據(jù)集5次交叉驗(yàn)證的準(zhǔn)確率為89.4%,靈敏度為82.1%,特異性為94.3%,。Fig.1TheperformanceofACwithdi?erentlgparameter關(guān)鍵詞:蛋白質(zhì)-DNA相互作用;生物信息學(xué);支持向量機(jī);序列進(jìn)化信息參考文獻(xiàn)[1]Bhardwaj,N.;E.Langlois,R.;Zhao,G.;LU,H.NucleicAcidsRes.,2005.
3、33(20):p.6486-6493.[2]Guo,Y.;Yu,L.;Wen,Z.;Li,M.NucleicAcidsRes.,2008.36(9):p.3025-3030.Sequence-basedprotocolforanalysingandpredictingofprotein-DNAinteractions11,*ChuanxinZou,HonglinLi1ShanghaiKeyLaboratoryofNewDrugDesign,SchoolofPharmacy,EastChinaUniversityofScienceand
4、Technology,Shanghai,200237ProteininteractionwithDNAarepivotaltothecellfunction,therefore,itiscrucialtoidentifyandpredictDNA-bindingproteinsaswellasDNA-bindingresidueswitheffectivebioinformaticsmethodinthepost-genomicera.Inthisstudy,astatisticalanalysiswasperformedtoobta
5、inthespecificfeaturesfromliteraturesanddatabases..ThenusingevolutionaryprofilesandselectedfeatureswegotasimpleandpowerfulmethodforDNA-binding-proteinrecognition,whichcombinessupportvectormachine(SVM)withauto-covariance(AC)transformation.Forcross-validationovertheentired
6、ataset,weobtainedtheAUCof0.86withanaccuracyof89.4%,sensitivityof82.1%andaspecificityof94.3%respectively.