2022.07.20

RAID 5 是什麼?一篇搞懂其原理與架構(2022年最新)

2022/7月


RAID 5 是什麼?
RAID 5 是虛擬架構磁碟
RAID 5 Configuration 架構原理
RAID 5 硬碟壞掉勿慌張,有『容錯』機制在
RAID 5 Degraded 時,先存資料為上上策
RAID 5壞兩顆,還有救嗎?
RAID 5 壞一顆,不立即更換沒關係嗎?

RAID 5 + Spare 原理
RAID 5 + Spare 容許2台硬碟在不同時間故障,不接受同時故障

RAID 5 資料備份建議方式
使用 RAID 5 的結論


 

RAID 5 是什麼?

RAID 5就是當1台硬碟故障時,資料還能夠正常讀取、使用,RAID 5是最常見、最廣為使用的架構,且企業級規格 Server 一定都採用 RAID 5 等級,但RAID 5因銷售上標榜『容錯功能(Fault tolerance)』,導致使用者誤以為容許發生故障、錯誤的情況,而忽略了資料備份,不可不慎,RAID 5技術至今已非常成熟可靠,並支援 3 台以上硬碟建立 RAID 5;建議設定5台硬碟一組,不建議太多台硬碟,可朝建立『多組 RAID 5』,便於管理、分散風險。

RAID 5 正常狀態

上圖為RAID 5 正常運作狀態

此篇文章將盡可能詳細說明 RAID 5的架構運作、運算原理、優缺點、使用注意事項,提供給使用者一個正確使用RAID 5的觀念。
 

RAID 5 是虛擬架構磁碟

舉例來說,假設共有3噸貨物,有2種運載方式:
1. 寧可出動3台小貨車,1車載1噸,各自行駛,各自有各自的駕駛,有各自的輪胎,風險可分散。
2. 將3台小貨車『串連結』成一台大列車行駛,變數多,風險高。

 

RAID 5 Configuration 架構原理

RAID 5 Configuration 架構本身最少需要透過3台硬碟機來構成,例如:Physical Drives 1TB + 1TB+1TB = 2TB Logical Drive (RAID 5 Array),其中有1TB 容量被當作 Parity Blocks,非單獨一台硬碟,而是平均分散在各硬碟內,每台硬碟提供 ⅓ 容量供 Parity 運算用。

這就是RAID 5的 Block Striping 儲存原理,將資料分散儲存至各硬碟中,當硬碟受損時則經由XOR運算,再將存在其他正常硬碟內的Parity Blocks及Data Stripe磁區的Data Blocks,進行計算而重建,進而將RAID 5 Rebuild,而 Parity 運算就是 RAID 5的容錯機制,運算原理非常艱深,後續我們會嘗試使用簡單易懂的方式向各位說明。

我們以透過三台硬碟機組成的 RAID 5來看,表面上安裝了 3 台硬碟,但 RAID 5 Array size 卻只有2台硬碟容量可使用,少了1台硬碟的容量,這就是被當作「Parity Blocks」。


RAID 5 其中一台硬碟故障時仍可正常運作
上圖為 RAID 5 硬碟發生故障,仍可運作的示意圖。

無論是哪一台硬碟受損,RAID 5容量不會因此減少,都是維持原來2台硬碟的容量,這就表示 RAID 5 標榜的『容錯功能』,容許任何1台硬碟故障,並讓 RAID 5仍可正常讀寫。

注意:
若有1台硬碟故障時,RAID 5 Status會顯示『RAID Degraded』,但還是可以正常讀寫資料,當下最重要、該盡快處理的,不是立刻更換正常硬碟將 RAID 5 Rebuild,正確、安全的做法是趁 RAID 5還能夠讀取資料時,趕快將資料備份出來,事後再作重建 Rebuild。

 

RAID 5 硬碟壞掉勿慌張,有『容錯』機制在

當您在維護的 RAID 5突然發生異常、硬碟壞掉,請勿慌張,因為RAID 5 的容錯功能,接受其中一台硬碟機故障,此時您必須透過一台正常硬碟,與故障硬碟進行更換,更換完成以後,接著只要等候RAID 5恢復,便可以排除問題。

但是,我們必須優先思考首要問題:
重要的究竟是將 RAID 5恢復重要?還是將RAID 5 裡頭的資料保存下來重要?
當然是『搶救 RAID 資料重要』。

因為 RAID 5 Rebuild 的原理,是將讀取每台正常硬碟內所有的 Blocks,再將由XOR運算將結果寫入空白硬碟內,包含空白 Blocks,並非只限 Data,所以相當耗時。

舉例:
RAID 5共3台硬碟,每台容量是 1TB,RAID 5的容量是 2TB,雖然資料量比較少,只有 500GB,但 Rebuild 是去每台硬碟自第 1 Block 開始讀取(含空白區) → XOR運算  → 再寫入空白硬碟內,直到最後的 Block 處,所以是讀取 2TB  → 寫入 1TB,並非只有 Data Blocks。

 

RAID 5 Degraded 時,先存資料為上上策


RAID 5 其中一台硬碟故障時仍可正常運作

當RAID 5 Degraded 時,切記先將重要資料存出

當不幸發生 RAID 5 Degraded 時,切記先將資料備份出來存放,而非急著將 RAID Rebuild,通常 RAID 5內的硬碟都是相同廠牌型號,所以硬碟品質基本上是相同的;且RAID 習慣 24H 不關機,又是多人多部門使用,所以操得很兇,所有硬碟耗損程度也一定相同,當已發生有1台硬碟受損 Offline,其它硬碟因為品質,耗損都相同,應該也撐不了多久,極可能一台接一台故障,這時千萬避免去做耗時危險的重建 Rebuild,萬一中途又有1台硬碟故障,導致RAID 5 Offline 就無法挽救了。

如現場有人看管,建議先將重要資料存出,只限搶救重要 folders、files,不要急著備份其它不重要資料,因為備份相當耗時,當RAID 5受損、處於 Degraded 的情況相當危險,不要試圖去和你的 RAID 5碰運氣。

 

RAID 5 壞一顆,不立即更換沒關係嗎?

通常RAID 5 壞一顆硬碟,如同前面所述 RAID 5 發生 Degraded的情況,仍可以正常讀取RAID 5 資料,此時建議儘早更換發生問題的硬碟機,避免問題越來越嚴重;若還能看到RAID 5 資料,請儘速將重要資料存出,避免有不可控的問題發生,導致資料完全無法存取,面臨RAID 5 需要資料救援的情況。
 

RAID 5壞兩顆,還有救嗎?

raid0501
上圖為RAID 5壞兩顆,與其他狀況示意圖

當RAID 5壞兩顆時,就會呈現Offline、無法辨識的狀態,RAID 5 為『磁碟陣列』,並非『單台硬碟』,需熟知 RAID 5 技術,並非一般人能排除;必須透過專業RAID資料救援公司才能協助您評估現況,進行專業檢查、判斷您的RAID 5 是否仍有機會將資料救出。

上面提到 RAID 5 同時 2台硬碟故障的可能性也高,那還有其它更安全可靠的 RAID?當出現問題時,科技界就會有一批熱心又聰明的工程師設法解決問題,下面我們將介紹RAID 5 + Spare 原理

 

RAID 5 + Spare 原理

raid0503

RAID 5 + Spare 最少需要「4台硬碟」來組成,首先將其中三台硬碟Create RAID 5 以後,將剩下的第四台硬碟設定為「Hot Spare」功能。

舉例:Physical Drives 1TB + 1TB+1TB+1TB = 2TB Logical Drive (Array)。

其中有1TB 容量被當作 Parity Blocks,非單獨一台硬碟,而是平均分散在各硬碟內(RAID 5 相同原理)。另一台1TB 則是先暫不使用,需為空白的作為備用,是當萬一有1台硬碟故障時,可立刻自動重建 Online Rebuild,不必等人發現再去找台空白硬碟插入。這用意是搶時間 Rebuild,避免錯失 Rebuild 寶貴機會。

『 Rebuild』原理是取自其它2台正常硬碟全部 Blocks,再經 Parity 運算將結果寫入此空白硬碟。內容和原受損硬碟是 100% 完全相同,這是一種蠻聰明的機制,後續會介紹『Parity 運算原理』(和上方談到的 RAID 5 原理相同)。

試想,如RAID 5無Spare 空白備用硬碟的架構,當發生1台硬碟故障時,會出現下列風險:

風險一:為了重建 Rebuild RAID5 Configuration 必須先花時間人工去找台一模一樣相同廠牌型號的舊型硬碟(事實上不需要相同廠牌型號,只需介面都相同 SAS or SATA,容量須大於故障硬碟即可),就可能耗費多日還不見得找的到。

且萬一是發生在夜間 or 假日公司沒人時?雖然 Server RAID 一直出現警告,但卻無人可即刻處理設法排除故障,容易發生更嚴重的損害;若有事先有插上一台 Spare 空白硬碟當備用,可以立刻在第一時間『自動』作重建 『Online Rebuild』,不必浪費時間再等人發現才能處理。

風險二:因為已發生有一台硬碟故障,其它硬碟又都是相同廠牌型號,品質一定相同,使用中耗損也相同,極易接著發生另一台硬碟受損,為了搶時間,這時 RAID5 Spare 可以立刻自動重建Rebuild,降低資料遺失風險,如現場有專業人員看守,建議先將重要資料存到其他裝置,先針對重要的內容進行保留,不要急著備份不重要的檔案,備份全部資料需耗費大量時間,當 RAID 5 + spare 已變成 Degraded 狀態相當危險,不建議再硬操。

 

RAID 5 + Spare 容許2台硬碟在不同時間故障,不接受同時故障

當RAID 5發生一台硬碟故障時,有備用 Spare 硬碟可線上立刻自動做重建 RAID Rebuild,避免又發生第2台硬碟故障來不及 Rebuild,導致 RAID 損毀,RAID 5 + Spare 是事先安裝1台空白硬碟作為備用,萬一發生其中有1台硬碟發生故障時,可以立刻在第一時間『自動』作資料重建 『Online Rebuild』,不會延誤搶救寶貴時間,為相當友善的 RAID 5 延伸架構。

凌威科技在此強烈推薦企業用戶使用 RAID 5 + Spare 架構,因爲 RAID 5 + Spare 技術已有20年歷史,相當成熟穩定;不論是用任何角度評估,RAID 5 + Spare 都是非常理想可靠,知名廠牌都一定具備 RAID 5 + Spare 功能,且支援眾多功能,讀寫速度而言已相當快速。

 

RAID 5 資料備份建議方式

建議 RAID 5 平時仍要勤做備份,將重要資料額外備份到其他裝置上、甚至是『異地備援』,對企業來說才能真的安心,凌威科技寧可多花時間介紹『RAID 備份機制』給RAID 使用者,並不是很喜歡常推薦市面又出現號稱更新更強的 RAID,所以至於傳說中 RAID1E 號稱容許故障半數硬碟還可正常讀寫的機制,凌威科技不願浪費時間介紹。

凌威科技在 RAID 5 領域的實務經驗中,始終提醒 RAID 5使用者,不要太過依賴 RAID 5的容錯機制,不要有錯覺認為 RAID 5 售價高,相對品質、性能就一定高,購入使用後,就疏忽作額外備份了;即便是使用RAID 5 仍會遇到問題,沒有一種磁碟陣列架構都不是完美的,不要太依賴RAID 5容錯機制。

好比一位駕駛員開著一台8輪大卡車,只因公司宣稱容許多個輪胎爆胎還可正常行駛,就告訴駕駛員,只有一個爆胎時先不必立即停車處理,繼續開再說;凌威科技寧願教當發生一個輪胎爆胎時,立刻停車換新胎,並檢查其它輪胎是否正常,就好比「開裝甲車也要綁安全帶」。

無論是何種 RAID 架構,都要勤做備份,開著價格高昂、名貴的車種,仍要繫上安全帶。

 

使用 RAID 5 的結論

使用 RAID 5 一定要有風險意識,因為通常內部儲存檔案,幾乎是整個企業的重要資料,絕不可損毀;建議初期規劃磁碟陣列時,不可超過您的技術能力,不論哪一種 RAID 讀寫速度都差不多,而 RAID 容量取決於硬碟數量,但使用一組您有能力管理,有能力排除輕微故障,才是正確的選擇,真的非常不建議,硬去使用自已不熟悉、無法自行管理的 RAID。

若您的RAID 5 目前遇到問題無法排除,資料非常重要、緊急,需尋求專業救援處理時,歡迎透過本公司的『RAID 資料救援』頁面與我們聯絡,本公司擁有熟知RAID 5 技術的資深工程師團隊,非常樂意協助您排除 RAID 5 問題。


RAID種類繁多,除了RAID 5之外,還擁有 RAID 0RAID 1RAID 6Raid 10...等架構,還不了解 RAID 是什麼的朋友,也可以先參考 「
RAID 磁碟陣列是什麼?一篇文章就理解(2021年最新)這篇文章。

相關文章分享

  • 2015.08.30

    RAID 受損程度詳細說明

    RAID是以一組為單位來計價,檢查整組的狀受損況來去計價。
    RAID發生故障,立即來電了解RAID救援流程費用‎。
    有時只是RAID設定值關係導致無法連線,只要恢復設定值即可恢復正常。
    若不熟悉RAID操作可能導致狀況越來越糟。建議將電源關閉立即送至我們專業診斷
    大部分故障第一時間處理都能順利將資料恢復!

  • 2023.12.28

    NAS故障9個常見原因,看完這一篇就理解(2024年)

    近年使用NAS的人越來越多,無論是企業或是個人用戶,都會選擇使用NAS來存放一些重要的資料,但是當NAS故障時會有的症狀,你都清楚嗎?凌威科技將透過這一篇NAS的文章,帶你一一了解NAS的常見故障有哪些...

  • 2022.08.08

    RAID 磁碟陣列是什麼?一篇文章就理解(2022年最新)

    此篇文章由 RAID (Disk Array)的原理和基礎開始說起,也有提到較進階的資訊,以最簡單易懂的文字 + 圖片解說『虛擬架構』,希望對使用者有幫助。

top