資源描述:
《機(jī)群作業(yè)管理系統(tǒng)condor綜述》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第5卷第1期信息工程大學(xué)學(xué)報(bào)Vol.5No.12004年3月JournalofInformationEngineeringUniversityMar.2004機(jī)群作業(yè)管理系統(tǒng)Condor綜述郭紹忠,黃永忠,余麗瓊(信息工程大學(xué)信息工程學(xué)院,河南鄭州450002)摘要:文章簡(jiǎn)要地介紹了機(jī)群計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),機(jī)群作業(yè)管理系統(tǒng)的一個(gè)實(shí)例Condor,分析了Condor的特點(diǎn),Condor系統(tǒng)的組成結(jié)構(gòu)和核心進(jìn)程,Condor進(jìn)程的運(yùn)行;最后給出Condor在設(shè)置檢查點(diǎn)的一些局限性。關(guān)鍵詞:機(jī)群計(jì)算機(jī);Condor;高吞
2、吐量計(jì)算(HTC);檢查點(diǎn)中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-0673(2004)01-0073-04ResearchandAnalysisonClusterJobManagementSystemCondorGUOShao_zhong,HUANGYong_zhong,YULi_qiong(InstituteofInformationEngineering,InformationEngineeringUniversity,Zhengzhou450002,China)Abstract:Thisp
3、aperintroducesbrieflythearchitectureofclustercomputers,andalsopresentsanexampleofclusterjobmanagementCondor.TheauthorsanalyzethefeaturesandthecomponentsoftheCondorandcoreprocesses,andhowtheseprocessesoftheCondorruntogetherinafigure.Attheendofthispaper,itlist
4、ssomelimitationsoftheCondor.Keywords:clusters;Condor;highthroughputcomputing(HTC);checkpoint112Condor概述1機(jī)群計(jì)算機(jī)系統(tǒng)及Condor簡(jiǎn)介Condor是由美國(guó)威斯康星大學(xué)開發(fā)的機(jī)群作業(yè)管理系統(tǒng),該項(xiàng)目得到美國(guó)政府(國(guó)防部、能源111機(jī)群計(jì)算機(jī)系統(tǒng)及其結(jié)構(gòu)部、美國(guó)國(guó)家宇航局、國(guó)家科學(xué)基金)和眾多企業(yè)機(jī)群是一種并行或分布式處理系統(tǒng),由很多連(AT&T,IBM,INTEL,MicrosoftUW-Madison)的資
5、助。接在一起的獨(dú)立的計(jì)算機(jī)組成,像一個(gè)單獨(dú)集成的安裝在威斯康星大學(xué)計(jì)算科學(xué)系的Condor資源計(jì)計(jì)算資源一樣協(xié)同工作。計(jì)算節(jié)點(diǎn)可以是一個(gè)單算池由超過700個(gè)Unix工作站,100個(gè)Windows處理器的系統(tǒng)(PC、工作站或SMP),擁有內(nèi)存、I/O2000PC組成,平均每天該資源池能向研究人員和設(shè)備和操作系統(tǒng)。一個(gè)機(jī)群一般是指連接在一起用戶提供超過500個(gè)CPU工作日的利用價(jià)值。目的兩個(gè)或多個(gè)計(jì)算機(jī)(節(jié)點(diǎn))。節(jié)點(diǎn)可以是在一起前全世界已經(jīng)有上百個(gè)科研院所安裝了Condor系的,也可以是物理上分散而通過LAN連接在
6、一起統(tǒng)。的。一個(gè)連接在一起的計(jì)算機(jī)機(jī)群對(duì)于用戶和應(yīng)Condor管理一個(gè)專用于某類計(jì)算的工作站群用程序來說就像一個(gè)單一的系統(tǒng),這樣可以為用戶(機(jī)群),它能有效地利用網(wǎng)絡(luò)中能相互通訊的工作提供價(jià)格合理且快速而可靠的服務(wù)。機(jī)群提供高站的計(jì)算力,創(chuàng)造一個(gè)高吞吐量計(jì)算HTC環(huán)境,這性能、可擴(kuò)展性、高吞吐量計(jì)算HTC(HighThrough-些機(jī)器可能分布于不同的地域,分別屬于不同的用putComputing)和易用性,所以機(jī)群受到越來越多戶。Condor是專門用于管理計(jì)算密集型(compute-業(yè)界人士的歡迎。典型的機(jī)群
7、系統(tǒng)的體系結(jié)構(gòu),如intensive)分布式機(jī)群作業(yè)的批處理系統(tǒng)。如果一圖1。個(gè)實(shí)驗(yàn)程序需要成千上萬次不同的輸入狀態(tài)下的收稿日期:2003-06-24作者簡(jiǎn)介:郭紹忠(1964-),女,安徽合肥人,信息工程大學(xué)副教授,主要研究方向?yàn)閿?shù)據(jù)庫系統(tǒng)、分布式系統(tǒng)。74信息工程大學(xué)學(xué)報(bào)2004年圖1機(jī)群計(jì)算機(jī)體系結(jié)構(gòu)運(yùn)行,每次提供的輸入數(shù)據(jù)不同(如600組數(shù)據(jù)),(4)作業(yè)可以排序作業(yè)可以按安排好的順序Condor可以僅用一個(gè)命令,來提交這600個(gè)作業(yè),執(zhí)行,一系列作業(yè)由有向非循環(huán)圖(DAG)來詳細(xì)說并且可以動(dòng)態(tài)、實(shí)時(shí)地
8、監(jiān)控這600個(gè)作業(yè)的運(yùn)行狀明,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)作業(yè),作業(yè)按照該圖給態(tài),系統(tǒng)自動(dòng)地為這600個(gè)作業(yè)進(jìn)行審核和記日的指示有序提交給Condor。志。(5)ClassAdsClassAds類似于報(bào)紙中將廣告分類的方式,資源提供方提供資源池中所有機(jī)器的2Condor特點(diǎn)特征,包括靜態(tài)和動(dòng)態(tài)的,如內(nèi)存、CPU型號(hào)、速度、虛擬內(nèi)存大小、物理地址等,而用戶提交作業(yè),要指(1)充分利用工作站的空閑