Poškozený RAID a jeho rebuild

RAID (Redundant Array of Independent Disks - redundantní pole nezávislých disků) je technologie, která umožňuje ukládat data na více pevných disků, čímž se zvyšuje výkon a redundance dat. V případě selhání pevného disku může RAID obnovit data ze zbývajících disků. Rebuild RAID pole je proces obnovy dat na selhávajícím nebo vyměněném pevném disku v poli RAID. Při selhání pevného disku v v rámci pole RAID jsou data na tomto disku ztracena. Pokud je však pole RAID nakonfigurováno s redundancí, lze k datům stále přistupovat z ostatních disků v poli.

Poškozený RAID a jeho rebuild

Co je to rebuild RAID pole?

Pro obnovení ztracených dat přečte řadič RAID nebo příslušný software data ze zbývajících disků v poli a zapíše je na nový nebo náhradní náhradní disk tzv. spare. Tento proces se nazývá obnova pole. Doba potřebná pro proces obnovy pole RAID formou přepočítání pole (to je právě rebuild)  závisí na velikosti pole a rychlosti disků.

Je důležité si uvědomit, že během procesu obnovy pole RAID může být systém pomalejší a existuje významné riziko ztráty dat, pokud dojde například k selhání další diskové jednotky před dokončením obnovy. Proto se doporučuje provádět pravidelné zálohování a sledovat stav pole RAID, aby bylo zajištěno jeho správné fungování.

Jak diskové pole RAID zvyšuje redundanci dat?

Disková pole RAID obecně zvyšují redundanci dat tím, že je rozdělují na více disků a zajišťují redundanci pomocí duplikace, paritních informací nebo kombinací obojího. To umožňuje, aby pole fungovalo i v případě poruchy jedné nebo více jednotek.

K dispozici je několik různých úrovní RAID, z nichž každá má svůj vlastní jedinečný způsob zvyšování redundance uložených dat. Zde je několik běžných příkladů:

  1. RAID 1, známý také jako zrcadlení disku, duplikuje data na dvou nebo více pevných discích. Tím je zajištěno, že v případě poškození jednoho disku jsou data stále dostupná na druhém disku (discích).
  2. RAID 5 využívá tzv. prokládání, které rozděluje data na více disků spolu s paritní informací, která umožňuje systému rekonstruovat data v případě selhání jednoho disku.
  3. RAID 6 je podobný RAID 5, ale používá dvě sady paritních informací, které zajišťují odolnost proti chybám i v případě selhání dvou jednotek.
  4. RAID 10 kombinuje zrcadlení a prokládání disků a zajišťuje redundanci i výkon. Data jsou duplikována na dvojice disků a poté jsou tyto dvojice prokládány (stripe) pro zvýšení výkonu.
Důležité upozornění! Popsané metody a postupy striktně předpokládají, že je jsou data na poškozeném diskovém poli zálohovaná. V případě, že dochází na nekorektně fungujícím, nekonzistentním RAID k invazivním zásahům (jakýkoliv zápis), existuje reálné a vysoké riziko absolutní a trvalé ztráty dat. Pokud řešíte poškozené diskové pole, z kterého není provedena záloha a aktuální prioritou je právě  obnovení dat z RAID, vyhněte se jakýmkoliv manipulacím, které mají nevratný charakter.

Objednat diagnostiku poškozeného RAID

Přesný postup obnovy poškozeného pole RAID 

Postup obnovy poškozeného pole RAID formou "rebuildu" se může lišit v závislosti na konkrétním typu RAID a použitém hardwaru nebo softwaru. Zde je však uvedeno několik obecných kroků, které lze dodržet:

  1. Identifikujte poškozený disk: Většina systémů RAID (v závislosti na použitém řadiči) při selhání disku zobrazí upozornění nebo výstrahu. Po řádné identifikaci nefunkčního disku ho vyjměte z pole.
  2. Vyměňte vadný disk: Nainstalujte nový diskovou jednotku, která nahradí vadnou Ujistěte se, že nová jednotka má stejnou nebo větší velikost než ostatní jednotky v poli a je kompatibilní s nastavením RAID. Naprosto ideální je použít identický disk.
  3. Obnovte diskové pole: V závislosti na použitém systému RAID, úrovni RAID  (obslužný HW + SW) může pole automaticky začít obnovovat data na nově vložený disk. Pokud tomu tak není, může být nutné zahájit proces obnovy ručně. Tento proces obvykle zahrnuje kopírování dat z ostatních diskových jednotek v poli na novou jednotku.
  4. Sledujte průběh obnovy: Během procesu obnovy může být systém pomalejší než obvykle a existuje riziko ztráty dat, obzvláště pokud dojde k selhání dalšího disku před dokončením obnovy. Pečlivě sledujte systém a případné logy abyste se ujistili, že rebuild diskového pole probíhá správně.
  5. Ověřte obnovu: Po dokončení obnovy RAID pole ověřte, zda nový disk funguje správně a zda jsou data v poli přístupná. V tomto okamžiku je také vhodné provést zálohu dat z obnoveného pole.

Je důležité si uvědomit, že konkrétní kroky při obnově pole RAID se mohou lišit v závislosti na použitém systému. Podrobné pokyny vždy naleznete v dokumentaci nebo ve zdrojích podpory konkrétního systému RAID.

Co je to náhradní disk v RAID poli?

Náhradní disk v poli RAID, tzv. spare disk je pevný disk, který je uložen v záložní pozici pole, aby v případě potřeby bez prodlevy nahradil jiný, selhávající disk v poli. Náhradní disk tak není zpočátku používán jako aktivní součást pole RAID, ale je k dispozici pro automatické použití jako náhrada v případě selhání jednoho z aktivních disků v poli.

Náhradní disky se běžně používají v systémech RAID, které vyžadují vysokou úroveň dostupnosti dat a provozuschopnosti, protože mohou zkrátit dobu potřebnou k automatické obnově pole v případě poškození pevného disku. Při selhání aktivního disku se náhradní disk (spare) automaticky zařadí do pole a data z poškozeného disku se obnoví na náhradním disku. Tento proces se nazývá hot spare, protože náhradní disk je okamžitě k dispozici a lze jej použít jako náhradu bez nutnosti ručního zásahu.

Náhradní disky mohou být implementovány v různých úrovních RAID, například RAID 1, RAID 5, RAID 6 a RAID 10. Počet potřebných náhradních disků závisí na požadované úrovni odolnosti proti chybám, velikosti pole a počtu aktivních disků v poli.

Je důležité si uvědomit, že náhradní disky sice mohou zvýšit spolehlivost a dobu provozuschopnosti systému RAID, ale nenahrazují potřebu pravidelného zálohování důležitých dat. K poškození diskového pole RAID dochází i v důsledku jiných faktorů, jako jsou chyby hardwaru, (typicky RAID řadiče) nebo softwaru, výpadky napájení nebo jinými problémy s okolním prostředím.

Jak dlouho trvá automatické obnovení pole RAID. Lze tuto dobu odhadnout?

Doba potřebná k obnovení pole RAID se může lišit v závislosti na několika faktorech, jako je velikost pole, počet a rychlost zbývajících diskových jednotek, úroveň RAID, typ použitého hardwaru a softwaru (např. použitého souborového systému) a zatížení systému během procesu obnovy.

Obecně může proces obnovy trvat několik hodin a v některých případech může u velkých a složitých polí trvat i několik dnů. Během procesu obnovy může být systém také významně pomalejší než obvykle a jak jsme již zmínili existuje riziko ztráty dat, pokud dojde k selhání další jednotky před dokončením obnovy.

Pro odhad doby potřebné k obnovení pole RAID můžete použít následující vzorec:

Rebuild Time = (Size of the Array) / (Average Drive Speed) * (RAID Level Rebuild Factor)

Průměrnou rychlost disku lze odhadnout na základě specifikací disku a faktor obnovy úrovně RAID lze nalézt v dokumentaci ke konkrétní použité úrovni RAID.

Je však důležité uvědomit si, že tento vzorec je pouze odhad a skutečná doba obnovy se může výrazně lišit na základě výše uvedených faktorů. Vždy se doporučuje proces obnovy pečlivě sledovat a plánovat nejhorší možný scénář, aby byla zajištěna dostupnost a integrita dat.

Pokud obnova pole RAID trvá příliš dlouho, mohu server restartovat?

Nedoporučuje se restartovat server během procesu obnovy pole RAID, zejména pokud obnova nebyla dokončena. Restartování serveru může způsobit přerušení procesu obnovy a potenciální poškození dat na poli RAID.

Pokud z nějakého důvodu potřebujete restartovat server, je nejlepší nejprve zastavit proces přestavby a poté server restartovat. V závislosti na konkrétním používaném systému RAID může být možné proces obnovy pozastavit nebo zastavit a po restartu serveru jej obnovit.

Pokud však musíte restartovat server v průběhu procesu obnovy, ujistěte se, že jste server řádně vypnuli a že jsou všechna data bezpečně zapsána na disky před restartem. Po restartování serveru pečlivě sledujte proces obnovy, abyste se ujistili, že je správně obnoven a úspěšně dokončen.

Obecně platí, že pokud je to možné, je lepší se restartování serveru během procesu obnovy RAID vyhnout a plánovat jej dopředu, aby se minimalizovalo riziko přerušení rebuildu. To zahrnuje pravidelné sledování stavu a výkonu systému RAID a řešení jakýchkoli problémů, jakmile se objeví, aby se minimalizovalo riziko selhání disků a nutnosti obnovy.

Co když se data po obnovení RAID nezobrazí?

Pokud je obnova dat z RAID formou automatického rebuildu dokončena a ve výsledku date nejsou na poli zobrazena, může to mít několik potenciálních příčin. Zde je několik možných důvodů a kroků, které můžete při řešení tohoto velmi nepříjemného problémů podniknout:

  1. Zkontrolujte, zda nedošlo během procesu rebuildu k chybám: Během procesu rebuildu se někdy mohou vyskytnout chyby nebo nekonzistence, které mohou zabránit zobrazení dat. Zkontrolujte protokoly (logy) a chybová hlášení, zda během procesu obnovy nebyly hlášeny chyby či konflikty. Pokud ano, vyřešte nejprve tyto problémy a zkuste obnovu provést znovu.
  2. Ověřte proces obnovy: Po dokončení procesu obnovy ověřte, zda nová jednotka funguje správně a zda jsou data na poli přístupná. To může zahrnovat kontrolu integrity dat a provedení procesu ověření nebo kontrolního součtu, aby se zajistilo, že byla data na novou jednotku správně přenesena .
  3. Zkontrolujte konfiguraci pole RAID: Zkontrolujte, zda je konfigurace RAID správně nastavena a zda pole správně funguje. To může zahrnovat kontrolu úrovně RAID, velikosti použitého stripe a dalších nastavení tak, aby se zajistilo, že odpovídají původní konfiguraci a že jsou všechny diskové jednotky rozpoznány a fungují správně.
  4. Zkontrolujte souborový systém: Pokud proces obnovy pole RAID úspěšně proběhl a data se stále nezobrazují, je možné, že je v poli porušený nebo jinak poškozený systém souborů. V takovém případě bude možná nutné spustit nástroj pro opravu souborového systému nebo obnovit data ze zálohy.
  5. Vyhledejte odbornou pomoc: Pokud jste vyzkoušeli výše uvedené kroky a stále nemáte přístup k datům, doporučujeme vyhledat odbornou pomoc specializovanou firmu na obnovu dat nebo prodejce systému RAID.

Je důležité si uvědomit, že kroky k řešení problémů a obnově dat po obnově systému RAID mohou být složité a je třeba k nim přistupovat opatrně, aby nedošlo k další ztrátě dat. Vždy přijměte opatření k zajištění integrity a dostupnosti dat, například pravidelně zálohujte důležité soubory a sledujte stav a výkon systému RAID.