一、高可用性基礎(chǔ)概念 高可用性簡述
90年代之前,大型機(jī)和小型機(jī)是支持關(guān)鍵應(yīng)用的骨干系統(tǒng),高可用性需要系統(tǒng)的可靠性、穩(wěn)定性、安全性,需要快速處理能力、大存儲容量及系統(tǒng)的可管理性。
全球事務(wù)和經(jīng)濟(jì)的變化加速了對新興的性能價格比更高的信息技術(shù)體結(jié)構(gòu)的需求, 客戶/服務(wù)器實現(xiàn)方法成為替代專用的、基于 RISC中等規(guī)模技術(shù)的解決方案。
隨著企業(yè)日趨依賴 Internet和 Intranet、遠(yuǎn)程計算、遠(yuǎn)程通信、全球競爭和協(xié)作,企業(yè)對這些應(yīng)用的可用性需求也日趨高漲。
本文敘述了高可用性最普遍使用的度量標(biāo)準(zhǔn),解釋了主要的停機(jī)原因,并且勾勒了客戶使用 Microsoft Windows NT Server部署可靠系統(tǒng)的基礎(chǔ)設(shè)施技術(shù)。
高可用性定義 可用性度量標(biāo)準(zhǔn) 可用性是測量計算機(jī)系統(tǒng)如何能夠持續(xù)地對客戶進(jìn)行服務(wù)的尺度。它需要依賴于系統(tǒng)的可用性來防止出現(xiàn)故障和/或從故障中進(jìn)行恢復(fù)。高可用性系統(tǒng)提供一個改進(jìn)的或者比傳統(tǒng)系統(tǒng)更高級的系統(tǒng)可用性,減少單個故障點(diǎn)。
Uptime(%) 99 99.9 99.99 99.999
Downtime 3.5 days /year 8.5 hours / year 1 hour / year 5 minutes / year
Class 可用性 高可用性 錯誤恢復(fù) 容錯
故障平均時間和恢復(fù)平均時間是評定高可用性的參數(shù)之一軟件和硬件組件具有不同的故障特點(diǎn),從而使軟件故障難于管理或預(yù)測。硬件組件通常具有稱為指數(shù)故障分布的故障特性。在正常環(huán)境下,并且在經(jīng)過初始階段之后,硬件組件運(yùn)行得越長,它發(fā)生故障的頻率就越高。因此,如果知道了設(shè)備的平均故障時間( MTTF),那么就有可能預(yù)測出該設(shè)備進(jìn)入故障狀態(tài)的時間。
造成停機(jī)時間的原因: 軟件故障、硬件故障、網(wǎng)絡(luò)故障、操作故障、環(huán)境故障。
二、集群技術(shù)
集群技術(shù)是實現(xiàn)系統(tǒng)高可用性的重要手段,本節(jié)將討論什么是服務(wù)器集群、如何建立服務(wù)器集群及相關(guān)問題。
什么是服務(wù)器“集群”?
服務(wù)器集群是作為單一系統(tǒng)進(jìn)行管理的一組獨(dú)立的服務(wù)器,用于實現(xiàn)更高的可用性、可管理性和更優(yōu)異的可伸縮性。
怎樣建立服務(wù)器集群?
服務(wù)器集群的最低要求是:(a)兩臺服務(wù)器通過網(wǎng)絡(luò)互連;(b)允許每臺服務(wù)器訪問對方的磁盤數(shù)據(jù);(c)專用的集群軟件,如 Microsoft Cluster Server( MSCS)。專用軟件可以提供包括故障檢測、恢復(fù)等多種服務(wù),并允許將服務(wù)器作為一個單一系統(tǒng)進(jìn)行管理。
服務(wù)器集群有何優(yōu)勢?
服務(wù)器集群擁有三項主要優(yōu)勢:更高的可用性、更方便的可管理性以及更經(jīng)濟(jì)高效的可伸縮性。
可用性: MSCS能夠自動檢測應(yīng)用或服務(wù)器故障,并可將其在幸存服務(wù)器上快速重新啟動;而用戶只會體驗到瞬間的服務(wù)暫停。
可管理性: MSCS使管理員能夠快速檢查所有集群資源的狀態(tài),并輕松地將工作負(fù)載分配給集群之中的不同服務(wù)器。這對于人工負(fù)載平衡十分有用,并且無需將重要數(shù)據(jù)和應(yīng)用脫機(jī)即可對服務(wù)器進(jìn)行"滾動升級"。
可伸縮性: “支持集群”的應(yīng)用可以通過 MSCS應(yīng)用程序接口( API)使用 MSCS服務(wù),從而在一個集群中的多臺服務(wù)器上實現(xiàn)動態(tài)負(fù)載平衡和擴(kuò)展。 三種集群技術(shù):共享磁盤、鏡像磁盤、非共享。
三、雙機(jī)雙控容錯系統(tǒng)方案綜述
1、雙機(jī)雙控容錯系統(tǒng)簡介
近年來隨著計算機(jī)技術(shù)的飛速發(fā)展,服務(wù)器的性能有了大幅度的提升,服務(wù)器作為處理關(guān)鍵性事物的業(yè)務(wù)主機(jī)已隨處可見。對于要求有高可用性和高安全性的系統(tǒng),比如金融、郵電、交通、石油、電力、保險、證券等行業(yè),用戶提出了系統(tǒng)容錯的要求。我公司根據(jù)用戶這一要求,推出了 雙機(jī)雙控容錯系統(tǒng)方案。用二臺服務(wù)器共同工作,當(dāng)一臺服務(wù)器的系統(tǒng)出現(xiàn)故障時,另一臺服務(wù)器可確保系統(tǒng)正常運(yùn)行,從而將系統(tǒng)風(fēng)險降低到最低限度,保障了系統(tǒng)的高可靠性、高安全性和高可用性。
雙機(jī)雙控容錯系統(tǒng)技術(shù)基礎(chǔ)為近年來成熟起來的Cluster集群技術(shù)。Cluster集群技術(shù)出發(fā)點(diǎn)是提供高可靠性、可擴(kuò)充性和抗災(zāi)難性。 雙機(jī)雙控容錯系統(tǒng)解決方案重點(diǎn)在提供高可靠性和高安全性,Cluster集群技術(shù)為此提供了技術(shù)上的保證。我公司為金融、郵電、交通、石油、電力、保險、證券等需要安全運(yùn)行的系統(tǒng)度身定作了基于Cluster集群技術(shù)的雙機(jī)雙控容錯系統(tǒng)方案。
2、Cluster集群技術(shù)
Cluster集群技術(shù)可如下定義:一組相互獨(dú)立的服務(wù)器在網(wǎng)絡(luò)中表現(xiàn)為單一的系統(tǒng),并以單一系統(tǒng)的模式加以管理。此單一系統(tǒng)為客戶工作站提供高可靠性的服務(wù)。Cluster大多數(shù)模式下,集群中所有的計算機(jī)擁有一個共同的名稱,集群內(nèi)任一系統(tǒng)上運(yùn)行的服務(wù)可被所有的網(wǎng)絡(luò)客戶所使用。Cluster必須可以協(xié)調(diào)管理各分離的組件的錯誤和失敗,并可透明地向Cluster中加入組件。
一個Cluster包含多臺(至少二臺)擁有共享數(shù)據(jù)儲存空間的服務(wù)器。任何一臺服務(wù)器運(yùn)行一個應(yīng)用時,應(yīng)用數(shù)據(jù)被存儲在共享的數(shù)據(jù)空間內(nèi)。每臺服務(wù)器的操作系統(tǒng)和應(yīng)用程序文件存儲在其各自的本地儲存空間上。
Cluster內(nèi)各節(jié)點(diǎn)服務(wù)器通過一內(nèi)部局域網(wǎng)相互通訊。當(dāng)一臺節(jié)點(diǎn)服務(wù)器發(fā)生故障時,這臺服務(wù)器上所運(yùn)行的應(yīng)用程序?qū)⒃诹硪还?jié)點(diǎn)服務(wù)器上被自動接管。當(dāng)一個應(yīng)用服務(wù)發(fā)生故障時,應(yīng)用服務(wù)將被重新啟動或被另一臺服務(wù)器接管。當(dāng)以上任一故障發(fā)生時,客戶將能很快連接到新的應(yīng)用服務(wù)上。
Cluster集群可由N臺服務(wù)器構(gòu)成,當(dāng)我們?nèi)luster要求的最小值N=2時,就成為一個雙機(jī)系統(tǒng)。
3、NetServer Clusters 雙機(jī)雙控容錯系統(tǒng)方案
NetServer為雙機(jī)雙控容錯系統(tǒng)提供了高品質(zhì)和高可靠的硬件基礎(chǔ)。 把穩(wěn)定的產(chǎn)品與先進(jìn)的技術(shù)相互結(jié)合,為客戶提供全套的解決方案。
雙機(jī)雙控容錯系統(tǒng)結(jié)合了 服務(wù)器產(chǎn)品的安全可靠性與Cluster技術(shù)的優(yōu)點(diǎn),相互配合二者的優(yōu)勢。 NetServer服務(wù)器針對Cluster技術(shù)做了許多優(yōu)化和改進(jìn),滿足了Cluster所有硬件連接要求,針對Cluster需求專門設(shè)計了特殊版本的NetRAID及NetRAID 3Si陣列卡。 與微軟公司合作,提供了運(yùn)行WolfPack的硬件平臺,并且 與第三方軟件廠商一起充分分析了客戶的需求,基于UNIX應(yīng)用環(huán)境的實際情況,研制了雙機(jī)雙控軟件ServerGuard;基于Windows NT應(yīng)用環(huán)境的實際情況,研制了雙機(jī)雙控軟件DataWare。 雙機(jī)雙控容錯系統(tǒng)是 提供的全套解決方案,并由 提供技術(shù)保障。
四、 雙機(jī)雙控容錯系統(tǒng)結(jié)構(gòu)介紹
1、雙機(jī)雙控容錯系統(tǒng)硬件結(jié)構(gòu)
雙機(jī)雙控容錯系統(tǒng)為二臺 NetServer服務(wù)器,每臺服務(wù)器擁有各自的系統(tǒng)盤,用來安裝系統(tǒng)軟件、數(shù)據(jù)庫軟件、應(yīng)用軟件和雙機(jī)軟件。二臺服務(wù)器同時還擁有一共享的數(shù)據(jù)盤,用來存儲應(yīng)用數(shù)據(jù)。系統(tǒng)盤通過NETRAID卡1做RAID1鏡象冗余,數(shù)據(jù)盤通過NETRAID卡2做RAID5或RAID50級冗余。二臺服務(wù)器各自擁有兩塊RAID控制卡,系統(tǒng)為雙控制卡結(jié)構(gòu),避免了單點(diǎn)故障,提高了系統(tǒng)的容錯能力。
系統(tǒng)硬件結(jié)構(gòu)示意圖:

2 、雙機(jī)雙控容錯系統(tǒng)硬件及結(jié)構(gòu)的優(yōu)點(diǎn)
公司推出計算機(jī)產(chǎn)品時堅持MAP原則(Manageability、Availability和Performance), 的硬件設(shè)備以其良好的可管理性、可用性和高性能為整個系統(tǒng)提供了硬件保障。
NetServer服務(wù)器以其優(yōu)秀的設(shè)計保證了系統(tǒng)擁有安全、可靠的硬件基礎(chǔ)。NetServer設(shè)計時運(yùn)用了許多先進(jìn)技術(shù)。 例如:ECC內(nèi)存Scrubbing、支持獨(dú)到的陣列級別RAID10、30和50考慮周到、精心設(shè)計的冷卻系統(tǒng), 雙機(jī)雙控容錯系統(tǒng)在設(shè)計時也從MAP的原則出發(fā),使整個系統(tǒng)成為一個安全的、可靠的、可管理的和擁有良好性能的系統(tǒng)。
從可靠性角度出發(fā) 雙重的保障、二個獨(dú)立的RAID控制器、系統(tǒng)盤和共享數(shù)據(jù)盤分別做了不同等級的容錯、
從安全的角度出發(fā) 系統(tǒng)盤部分可做RAID1或RAID10鏡象備份、共享數(shù)據(jù)盤部分做RAID5或RAID50 、人員無法接觸到系統(tǒng)設(shè)備、
從管理的角度出發(fā) 方便的系統(tǒng)修復(fù)、維護(hù)相當(dāng)便捷、可選的遠(yuǎn)程監(jiān)控系統(tǒng)和遠(yuǎn)程報警、
從性能的角度出發(fā) 很好的數(shù)據(jù)讀寫性能、更多的數(shù)據(jù)空間、快速的多SCSI通道、
從應(yīng)用的角度出發(fā) 多種操作平臺、多種數(shù)據(jù)庫、多種監(jiān)控平臺、
五、 雙機(jī)容錯系統(tǒng)硬件方案范例
考慮到針對不同行業(yè)的不同需求,對系統(tǒng)處理能力的要求也不近相同,我們推出了多套方案以供參考。
方案一:本方案采用服務(wù)器和磁盤柜組合,服務(wù)器內(nèi)存為128MB可升級為4GB,933MHz-1GHz PIII CPU 兩個, 10/100MB自適應(yīng)網(wǎng)卡,32倍速的IDE光驅(qū),133MHz的高速總線頻率使系統(tǒng)處理性能有了較大的提高。 NetRAID2M磁盤陣列卡可以提供多路的SCSI通道。磁盤柜可以放置12塊Ultra3 SCSI 160MB/s熱插拔硬盤用以存儲數(shù)據(jù)。采用RAID5/RAID50陣列模式,保證了數(shù)據(jù)冗余。24GB的內(nèi)置DDS大容量磁帶機(jī)保證數(shù)據(jù)的備份存儲。
這是一個性能完備處理性能較高的組合方案,此方案可以有效的支持多任務(wù)模式。是一個很好的部門級雙機(jī)容錯方案。
方案二:本方案采用服務(wù)器和1個光纖通道磁盤陣列柜,所有服務(wù)器與磁盤柜均放置在 的機(jī)柜中,封閉式管理。安全可靠。服務(wù)器選配內(nèi)存為512MB可升級為8GB,PIII Xeon 700MHz的CPU為兩個,可升級為6個CPU。10/100MB自適應(yīng)網(wǎng)卡。 FC-HBA光纖通道卡可以提供更高的I/O通道。每個RS12FC磁盤柜共可以放置12塊Ultra 3 SCSI 160MB/s熱插拔硬盤用以存儲數(shù)據(jù),總外置容量可達(dá)到655.2GB。采用RAID5或RAID50陣列模式,保證了數(shù)據(jù)冗余,極大的擴(kuò)大存儲容量,在采用RAID50陣列模式時,數(shù)據(jù)盤即使兩塊同時損壞也不會丟失數(shù)據(jù)。24GBX6的外置DDS大容量磁帶機(jī)保證數(shù)據(jù)的備份存儲。由于Lxr8500服務(wù)器采用對等PCI總線結(jié)構(gòu),在系統(tǒng)IO性能上有極大提高。
這是一個處理能力很強(qiáng)的組合方案并具有很好的擴(kuò)充能力。此方案可以有效的支持多任務(wù)模式。是一個很好的企業(yè)級雙機(jī)容錯方案。
|