資源描述:
《計算機(jī)系統(tǒng)可靠性.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、計算機(jī)系統(tǒng)高可靠性研究引言:隨著計算機(jī)應(yīng)用水平的不斷提高,計算機(jī)的依賴已經(jīng)成為社會的必然。計算機(jī)的依賴即對數(shù)據(jù)的依賴,數(shù)據(jù)已成為社會文明賴以維持的重要條件。不論是在政府機(jī)關(guān)企事業(yè)單位使用的現(xiàn)代辦公系統(tǒng)中,還是在保證企業(yè)正常生產(chǎn)的大型集散控制系統(tǒng)中,抑或是在代表現(xiàn)代制造業(yè)最新水平的柔性制造系統(tǒng)或計算機(jī)集成制造系統(tǒng)中,如何保障數(shù)據(jù)的高可靠、持續(xù)訪問是我們計算機(jī)應(yīng)用者必須面對的主要問題。以計算機(jī)應(yīng)用和數(shù)據(jù)為中心的理論為依據(jù),建立計算機(jī)應(yīng)用系統(tǒng)高可靠理論與應(yīng)用推廣技術(shù),保障計算機(jī)應(yīng)用系統(tǒng)的數(shù)據(jù)高可用,避免數(shù)據(jù)災(zāi)難對社會正常秩序的
2、嚴(yán)重破壞,是計算機(jī)應(yīng)用高可靠性研究的主要內(nèi)容,該研究具有重大的意義。具體來說包括:海量數(shù)據(jù)存儲系統(tǒng),數(shù)據(jù)處理通道高可靠性,數(shù)據(jù)傳輸通道高可靠性等。系統(tǒng)可靠性的定義:在特定時間內(nèi)和特定條件下系統(tǒng)正常工作的相應(yīng)程度,即(degreeofsuitability)。系統(tǒng)的可用性(availability),即利用率??捎眯缘钠骄导雌骄寐?,其計算方法為:A=MTBF/(MTBF+MTTR)其中:MTBF(MeanTimeBetweenFailures),故障間隔平均時間;MTTR(MeanTimeToRepair),系統(tǒng)平均
3、修復(fù)時間。當(dāng)前主要容錯技術(shù):提高計算機(jī)系統(tǒng)可靠性主要有兩種方法:避錯和容錯。所謂避錯就是采取各種可能的技術(shù)措施避免計算機(jī)在使用過程中發(fā)生錯誤;所謂容錯就是在系統(tǒng)運行過程中允許某些環(huán)節(jié)發(fā)生某些錯誤,但是計算機(jī)給出的最終結(jié)果中不包括由于上述環(huán)節(jié)中發(fā)生的錯誤所造成影響。1.避錯技術(shù)。其實就是追求一種完美性。要求組成系統(tǒng)的各個部件、器件具有高可靠性4不允許出錯,或者出錯率降至最低。1.1硬件的可靠性與完美性指元器件的完美性、部件的完美性、整機(jī)與系統(tǒng)的完美性。例如:電路:規(guī)范設(shè)計、電路結(jié)構(gòu)、時序與競爭元器件:制造、篩選、老化、容差
4、、壽命部件:PCB板、布局、位置、結(jié)構(gòu)、布線、焊接、安裝、散熱、機(jī)械性能、頻率整機(jī):整體一致、結(jié)構(gòu)合理、干擾屏蔽環(huán)境:布局、強(qiáng)弱電干擾、靜電1.2軟件的可靠性與完美性指軟件的正確性、可用性、完美性、兼容性。1.容錯技術(shù)即在一定程度上容忍故障的技術(shù)。容錯系統(tǒng),采用容錯技術(shù)的系統(tǒng)。當(dāng)系統(tǒng)因某種原因出錯或者失效,系統(tǒng)能夠繼續(xù)工作,程序能夠繼續(xù)運行,不會因計算機(jī)故障而中止或被修改,執(zhí)行結(jié)果也不包含系統(tǒng)中故障引起的差錯。容錯技術(shù)也稱為故障掩蓋技術(shù)(faultmasking)。冗余技術(shù)是容錯技術(shù)的重要結(jié)構(gòu),它以增加資源的辦法換取可靠
5、性。由于資源的不同,冗余技術(shù)分為硬件冗余、軟件冗余、時間冗余和信息冗余。資源與成本按線性增加,而故障概率則可按對數(shù)規(guī)律下降。冗余要消耗資源,應(yīng)當(dāng)在可靠性與資源消耗之間進(jìn)行權(quán)衡和折衷。2.1硬件容錯技術(shù)1)系統(tǒng)級容錯多種系統(tǒng)容錯后備模式l雙機(jī)雙工熱備份(MutualBackup)兩機(jī)同時運行,分不同作業(yè),各自資源負(fù)載,故障、接管、修復(fù)、交還。l主從熱備份(Master/Slave)主從式(M/S),M運行,S后備,M故障,S接管并升級為M,原M修復(fù)后作為Sl熱備份(Hot-Standby)M運行,S后備,M故障,S接管作M
6、,原M修復(fù),S歸還M。2)部件級容錯l存儲子系統(tǒng)(最容易發(fā)生故障的地方)4?磁盤鏡像:將相同的數(shù)據(jù)分別寫入兩個磁盤?磁盤雙聯(lián):為鏡像磁盤增加了一個I/O控制器,形成磁盤雙聯(lián),使總線爭用得到改善。?RAID(獨立磁盤冗余陣列)簡單地解釋,就是將N臺硬盤通過RAIDController(分Hardware,Software)結(jié)合成虛擬單臺大容量的硬盤使用。磁盤陣列中針對不同的應(yīng)用使用的不同技術(shù),稱為RAIDlevel,而每一level都代表著不同技術(shù),目前業(yè)界公認(rèn)的標(biāo)準(zhǔn)是RAID0~RAID5。用哪個level視用戶的操作環(huán)
7、境和應(yīng)用而定。RAID的采用為存儲系統(tǒng)(或者服務(wù)器的內(nèi)置存儲)帶來巨大利益,其中提高傳輸速率和提供容錯功能是最大的優(yōu)點。l電源:采用雙電源,DC冗余,AC、DC全冗余。lI/O卡:雙網(wǎng)卡。lPCI總線:三重對等PCI技術(shù)。lCPU:多CPU容錯系統(tǒng)。2.2軟件冗錯技術(shù)這里所討論的軟件容錯主要是對計算機(jī)應(yīng)用軟件科技人員為某一個特定的工程設(shè)計和開發(fā)的應(yīng)使用軟件而言。目前實現(xiàn)軟件設(shè)計的冗余通常都采用重版本程序設(shè)計法,這如同硬件靜態(tài)容錯一樣,是一種靜態(tài)屏蔽軟件可能造成錯誤的技術(shù)。設(shè)計思想是用N個具有相同功能的程序同時或先后執(zhí)行某
8、項計算,結(jié)果通過多數(shù)表決來選擇。表決程序是N重本程序設(shè)計結(jié)構(gòu)的關(guān)鍵。以N重版本程序設(shè)計的方法來實現(xiàn)軟件設(shè)計的冗余是保證軟件可靠性同時也是提高整個系統(tǒng)可靠性的最強(qiáng)有力的措施,但是這種技術(shù)措施的采用又反過來要求增加為其運行所需的硬件資源,從而加大了系統(tǒng)的成本和硬件設(shè)計的復(fù)雜性$另一方面也增加了系統(tǒng)在時間上的開銷,從而使系