資源描述:
《高可用性報(bào)告》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、高可用報(bào)告一、??高可用分析1、三個(gè)概念失效(fault):指設(shè)備或程序自身固有缺陷導(dǎo)致的瞬間或永久性的功能失常。錯(cuò)誤(error):由失效導(dǎo)致的系統(tǒng)內(nèi)部不正確行為。錯(cuò)誤可以被發(fā)現(xiàn)并進(jìn)行糾正。故障(failure):指由于出現(xiàn)錯(cuò)誤導(dǎo)致了系統(tǒng)產(chǎn)生了不正確的結(jié)果。失效故障錯(cuò)誤2、平均故障發(fā)生時(shí)間MTTF(MeanTimeToFailure)MTTF是一個(gè)統(tǒng)計(jì)上可測(cè)量的參數(shù)MTTF1壽命MTTF=1/穩(wěn)態(tài)運(yùn)行期間的故障發(fā)生率N臺(tái)機(jī)器T時(shí)間內(nèi)故障數(shù):E=(N×T)/MTTF3、服務(wù)器系統(tǒng)的運(yùn)行—維護(hù)周期平均無(wú)故障時(shí)間(MTBF)平均修復(fù)時(shí)間(MTTR)正常運(yùn)行時(shí)間修復(fù)故障時(shí)間發(fā)生
2、故障正??煽啃?系統(tǒng)連續(xù)提供服務(wù)的能力,MTTF:MeanTimeToFailure可維護(hù)性:修復(fù)故障使系統(tǒng)恢復(fù)正常的能力,MTTR:MeanTimeToRepair4、可用性(Availability)可用性=MTTF/(MTTF+MTTR)例:MTTF=5000小時(shí),MTTR=1天,則可用性為:5000/(5000+24)=99.52%5、提高可用性的途徑1)???????提高M(jìn)TTF2)???????降低MTTR二、硬件高可用(一)Cluster中硬件HA的目標(biāo)1、問(wèn)題的起源:?jiǎn)吸c(diǎn)故障問(wèn)題及其應(yīng)對(duì)策略單點(diǎn)故障:某些硬件或軟件部件,它們的故障會(huì)導(dǎo)致整個(gè)系統(tǒng)的崩潰。[6
3、]機(jī)群系統(tǒng)可能出現(xiàn)的單點(diǎn)故障有:l????????處理器或節(jié)點(diǎn)l????????存儲(chǔ)程序或數(shù)據(jù)的磁盤l????????適配器、控制器和連接節(jié)點(diǎn)到磁盤的電纜l????????用戶訪問(wèn)機(jī)群節(jié)點(diǎn)的網(wǎng)絡(luò)。l????????應(yīng)用程序應(yīng)對(duì)策略:通過(guò)系統(tǒng)地消除那些單點(diǎn)故障來(lái)盡可能使更多的故障成為部分故障。[6]解決機(jī)群中的單點(diǎn)故障問(wèn)題:解決大多數(shù)的單點(diǎn)故障問(wèn)題并不需要使用任何分層軟件產(chǎn)品。計(jì)算從任何特殊錯(cuò)誤中恢復(fù)所需人工干涉的總時(shí)間和精力。然后再考慮系統(tǒng)能否承受停機(jī)造成的損失,以及能否提供全天操作中必須的人工干預(yù)。對(duì)于機(jī)群設(shè)計(jì)者而言,這將有助于決定是使用人工干預(yù)來(lái)管理還是需要采取其它措
4、施來(lái)滿足高可用性的要求。·節(jié)點(diǎn)故障在機(jī)群中,當(dāng)一個(gè)節(jié)點(diǎn)提供的服務(wù)是關(guān)鍵性的話,那么當(dāng)該節(jié)點(diǎn)失效時(shí),機(jī)群中必須有另外的節(jié)點(diǎn)來(lái)代替它的資源,向終端擁護(hù)提供相同的服務(wù)。包括以下步驟:1、?在備用節(jié)點(diǎn)的網(wǎng)絡(luò)適配器配置失效節(jié)點(diǎn)的地址,或者提示用戶(或改變客戶端應(yīng)用程序)使用一個(gè)替換的地址。2、在故障和備用節(jié)點(diǎn)之間引入和改變所有組的卷,并且裝上所有需要的文件系統(tǒng)。3、修復(fù)存儲(chǔ)在故障節(jié)點(diǎn)內(nèi)部磁盤上的所有應(yīng)用程序和數(shù)據(jù)。4、執(zhí)行任何鑒定性的應(yīng)用程序。假定后備節(jié)點(diǎn)在關(guān)鍵服務(wù)中還沒(méi)有被網(wǎng)絡(luò)訪問(wèn)。這樣,每個(gè)節(jié)點(diǎn)需要額外的網(wǎng)絡(luò)適配器,這個(gè)節(jié)點(diǎn)將被備份。如果用戶通過(guò)串行連接訪問(wèn)失效節(jié)點(diǎn),每個(gè)終端應(yīng)
5、該物理上重連接到后備節(jié)點(diǎn)的端口上。如果外部磁盤沒(méi)有連接到失效節(jié)點(diǎn)和后備節(jié)點(diǎn)之間的通用總線上,則需要手工將他們從一個(gè)轉(zhuǎn)換到另一個(gè)。所有關(guān)鍵數(shù)據(jù)被保存在外部磁盤上。如果最后的后備節(jié)點(diǎn)變?yōu)椴豢捎?,所有關(guān)鍵數(shù)據(jù)則被保存至節(jié)點(diǎn)的內(nèi)部磁盤。·磁盤和I/O總線故障為了防止包括磁盤的外部I/O通道中的任何部分出錯(cuò),應(yīng)該在兩路I/O總線上將磁盤鏡象或者使用從節(jié)點(diǎn)到存儲(chǔ)子系統(tǒng)有雙重路徑的磁盤陣列系統(tǒng)?!ぞW(wǎng)絡(luò)適配器故障為了防止網(wǎng)絡(luò)適配器故障,每個(gè)提供關(guān)鍵服務(wù)的節(jié)點(diǎn)需要配置備用網(wǎng)絡(luò)適配器。這個(gè)適配器連接到與用戶正在訪問(wèn)的主適配器相同的網(wǎng)絡(luò)主干上。如果網(wǎng)絡(luò)適配器失效,可以將備用適配器的地址改為失效
6、適配器的地址。另外一種方法是始終有一個(gè)熱備份的網(wǎng)絡(luò)適配器可以隨時(shí)替代出錯(cuò)適配器。這種方法從故障中恢復(fù)的時(shí)間更短,因?yàn)橄到y(tǒng)安裝備用適配器無(wú)需停機(jī)?!ぞW(wǎng)絡(luò)故障如果用戶正在和一個(gè)節(jié)點(diǎn)通信時(shí)網(wǎng)絡(luò)主干停止工作,解決方案之一是人工地將所有機(jī)群節(jié)點(diǎn)和客戶端機(jī)器切換到另外一個(gè)主干上。即便有足夠的時(shí)間和精力去這樣做,還得保證沒(méi)有松散的連接或網(wǎng)絡(luò)設(shè)備(路由器、集線器或網(wǎng)橋)故障引起主干失效。另外一個(gè)解決方案是連接一個(gè)終端的子集到備用節(jié)點(diǎn)的串口上,這樣還可以提供最小級(jí)別的服務(wù)。在這種情況下應(yīng)用程序必須被設(shè)計(jì)成允許用戶既可以通過(guò)網(wǎng)絡(luò)連接到終端也可以通過(guò)串口連接到終端。·應(yīng)用程序故障根據(jù)應(yīng)用程序的
7、設(shè)計(jì),為監(jiān)控應(yīng)用程序使用的后臺(tái)程序,并及時(shí)對(duì)狀態(tài)改變作出反應(yīng),應(yīng)該使用AIX子系統(tǒng)資源控制器。2、人工干預(yù)的缺點(diǎn)根據(jù)上述的討論,依據(jù)故障的不同類型。包括檢測(cè)故障所花時(shí)間,很明顯從任何機(jī)群故障中人工恢復(fù)的時(shí)間為30分鐘到幾個(gè)小時(shí)。這對(duì)許多應(yīng)用在重要場(chǎng)合的機(jī)群來(lái)說(shuō)已經(jīng)是不可容忍的了。3、Cluster中硬件HA的目標(biāo):因此,我們可以歸納出Cluster中硬件HA的目標(biāo)應(yīng)該是:1、盡可能消除單點(diǎn)故障部件。2、盡可能快地檢測(cè)到故障并自動(dòng)切換到備用部件,以便使系統(tǒng)的故障恢復(fù)時(shí)間盡可能地短。3、采取冗余、熱備份等高可用策略盡可能消除或減小