Záchrana dat z NAS disku Seagate IronWolf Pro s progresivní degradací výkonu

Záchrana dat z NAS disku Seagate IronWolf Pro ST4000NE001 s kapacitou 4 TB ilustruje typický průběh postupného selhávání enterprise disku v produkčním prostředí. Opotřebované čtecí hlavy v kombinaci s rozsáhlými vadnými sektory způsobovaly nejprve extrémní zpomalení a nakonec úplnou nemožnost přístupu k datům. Díky pokročilým technikám segmentovaného imagingu a nízkoúrovňové kalibraci adaptivních parametrů se podařilo obnovit 99 procent včetně kompletní VMware infrastruktury a databázových souborů MySQL.

Jak se projevovala degradace výkonu NAS disku

Do naší laboratoře dorazil 4TB NAS disk Seagate IronWolf Pro ST4000NE001 s popisovaným postupným selháváním, které v enterprise prostředí pozorujeme poměrně často. Záchrana dat z pevného disku HDD s progresivní degradací výkonu patří k technicky nejnáročnějším případům, protože disk zdánlivě funguje, ale spolehlivost čtení se každým dnem zhoršuje. Zákazník, správce firemního NAS úložiště popsal vývoj problému v průběhu cca tří týdnů.

Disk fungoval bez obtíží jako součást diskového pole RAID 1 v zařízení Synology DS220+. Potíže se začaly projevovat nenápadně: nejprve se zpomalilo načítání adresářů a prodloužila se odezva při přístupu k souborům. Správce zpočátku přisuzoval zpomalení zvýšené síťové zátěži. Situace se však rychle zhoršovala a přístup k datům se prodlužova l z řádu sekund na minuty, až se stal prakticky nemožným.

Poslední dny před výpadkem se disk choval krajně nestabilně: načtení adresářové struktury trvalo 10 až 15 minut, kopírování jakéhokoli souboru se po několika sekundách zastavilo s chybou timeoutu a celý systém opakovaně zamrzal. Zvukově disk nevykazoval výrazné příznaky mechanického poškození — pouze občasné lehké klepnutí po delším provozu, které správce zpočátku nevnímal jako varovný signál. Poslední pokus o přístup k datům prostřednictvím externího doku s rozhraním USB 3.0 skončil úplným zamrznutím operačního systému.

Postupné zhoršování výkonu jak čtení tak zápisu je u enterprise disků jedním z nejspolehlivějších varovných signálů blížícího se definitivního selhání. Každá minuta zbytečného zatěžování disku zvyšuje riziko nevratného poškození dat.

Poškozený disk Seagate IronWolf Pro z NAS Synology

Diagnostika SMART hodnot a stav čtecích hlav

Při příjmu disku jsme nejprve provedli vizuální kontrolu disku včetně desky plošných spojů (PCB), která neodhalila žádné stopy mechanického poškozen. Disk byl následně připojen k diagnostickému systému PC-3000 Express pro kompletní rozbor stavu. Výsledky analýzy S.M.A.R.T. hodnot byly alarmující:

Raw Read Error Rate: 248 836 294 (kritická hodnota)
Reallocated Sector Count: 2 847 sektorů
Pending Sector Count: 15 692 sektorů
Seek Error Rate: 45 829 173

Tyto hodnoty jasně indikovaly významné poškození povrchů datové plotny a nefunkční čtecí hlavy HDD. Detailní analýza pomocí nízkoúrovňových příkazů odhalila kombinaci několika souběžných problémů. Hlavy H0 a H2 vykazovaly výrazně zvýšenou chybovost při čtení, hlava H1 měla obtíže s přesným naváděním na stopu na vnějších cylindrech disku. Pouze hlava H3 si udržovala přijatelnou stabilitu, což se ukázalo jako klíčové pro volbu strategie záchrany.

Rozsáhlé oblasti obsahující vadné sektory se soustřeďovaly zejména v lokacích odpovídajících 30 až 40 % kapacity disku — tedy v datové zóně nejintenzivněji využívané pro přírůstkové zálohy a databázové operace. Servosystém vykazoval silnou nestabilitu v podobě občasných ztrát uzamčením polohy aktuátoru, které způsobovaly opakované timeouty čtení. Test rotační rychlosti naproti tomu potvrdil stabilních 7 200 otáček za minutu; motor pracoval bez potíží. Problém byl tedy soustředěn výhradně v mechanice čtecích hlav a integritě datových ploten.

Co jsou S.M.A.R.T. hodnoty a proč na nich záleží? S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) je systém integrovaný do pevných disků, který průběžně sleduje klíčové provozní parametry. Hodnoty jako Reallocated Sector Count nebo Pending Sector Count informují o počtu sektorů, které disk přestal být schopen spolehlivě číst nebo zapsat. Překročení kritických prahů je spolehlivým indikátorem blížícího se selhání. Monitoring SMART hodnot lze zajistit nástrojem smartmontools na Linuxu nebo prostřednictvím rozhraní správce NAS systémů Synology, QNAP a dalších výrobců.

Pokročilý imaging s opotřebovanými čtecími hlavami

Vzhledem k pokročilému stupni degradace byla zvolena strategie postupného imagingu s maximálně šetrným přístupem k mechanickým komponentům. Mechanické závady pevných disků tohoto charakteru vyžadují specifický přístup: agresivní opakované čtení vede k rychlému vyčerpání zbytkové životnosti hlav, zatímco příliš pomalý postup zbytečně prodlužuje dobu, po kterou je disk zatěžován. Klíčem je nalezení optimální rovnováhy mezi rychlostí a šetrností.

Přípravná fáze zahrnovala úpravu adaptivních parametrů čtení v servisní oblasti disku (SA). Úprava hodnot Head Offset Calibration a Channel Parameters částečně kompenzovala opotřebení hlav a zlepšila stabilitu čtení problematických oblastí. Teprve po této kalibraci byl spuštěn vlastní imaging (vytváření bitového obrazu disku).

Nastavená strategie čtení probíhala ve třech navazujících fázích:

Prvotní průchod se sníženou rychlostí (512 kB/s) pro mapování čitelných oblastí a přesnou identifikaci rozsahu poškozených zón.
Cílený přístup k vadným sektorům s prodlouženými hodnotami timeoutu až 30 sekund na sektor. Problematické LBA adresy byly čteny výhradně prostřednictvím nejstabilnější hlavy H3 díky funkci selektivního čtení po hlavách.
Reverzní čtení v kritických oblastech: čtení sektorů v opačném směru pro minimalizaci výchylky aktuátoru a snížení celkového mechanického namáhání.

Pro sektory s nejnižší čitelností byla aplikována metoda překryvného čtení s následnou rekonstrukcí pomocí algoritmů pro opravu chyb (ECC). Zvláštní pozornost si vyžádala oblast obsahující databázové soubory MySQL (přípona .ibd) a obrazy virtuálních strojů VMware (přípona .vmdk). Oba typy souborů jsou velmi citlivé na fragmentovaná nebo chybějící data, proto byly příslušné segmenty čteny s využitím korekčních kódů přímo na úrovni rozhraní ATA.

Po 30 hodinách imagingu dosáhla úspěšnost čtení 92 %. Pro získání zbývajících dat byla provedena precizní a finální optimalizace čtecích hlav. Maximální reponse a citlivost má však za následek zvýšené opotřebovávání hlav, proto je možné k takovému nastavení přistoupit až ve finální fázi. Tento zásah umožnil vyčíst dalších 7,5 % dříve nečitelných dat. Celý imaging tak trval 41 hodin.

Rekonstrukce souborového systému EXT4 a výsledek záchrany 99,7 %

Imaging skončil s výslednou úspěšností čtení 99,7 % všech sektorů na disku. Zbývajících 0,3 % (přibližně 12 GB) představovaly sektory v oblasti systémových souborů, jejichž absence neovlivnila integritu uživatelských dat.

Získaný bitový obraz byl dále analyzován za účelem rekonstrukce souborového systému EXT4. Poškozené bloky se nacházely převážně v oblasti inodů, což si vyžádalo ruční rekonstrukci části adresářové struktury pomocí forenzních nástrojů. Tento krok je při rozsáhlejším poškození inodů nezbytný: automatizované nástroje sice dokážou obnovit velkou část stromové struktury, avšak složitější závislosti vnořených adresářů vyžadují zásah zkušeného technika.

Obnovená data zahrnovala:

kompletní VMware infrastrukturu (142 GB obrazů virtuálních strojů),
databáze MySQL s plnými indexy (78 GB),
zálohovací archivy ve formátu .tar.xz (890 GB),
dokumentové úložiště s verzováním (1,2 TB),
systémové protokolové soubory (156 GB).

Kontrolní ověření pomocí kryptografických kontrolních součtů potvrdilo 100% shodu obnovených souborů s jejich původním stavem. Zákazník tak obdržel kompletní data bez jediného poškozeného záznamu v databázích nebo neúplného obrazu virtuálního stroje. Veškerá obnovená data byla předána na novém 8TB NAS disku Seagate IronWolf Pro s dvojnásobnou kapacitou pro budoucí růst úložiště.

Shrnutí případu

Výrobce média	Seagate
Typ média	NAS disk (IronWolf Pro)
Model disku	ST4000NE001 (4 TB CMR)
Příčina ztráty dat	Progresivní degradace výkonu, vadné sektory, opotřebované čtecí hlavy
Výsledek záchrany	99,7 % (3,988 TB ze 4 TB)
Lokace zákazníka	Záchrana dat Ostrava, Moravskoslezský kraj

Často kladené otázky

Ano, ve většině případů lze data z výrazně zpomalených nebo nereagujících NAS disků úspěšně obnovit. Progresivní degradace výkonu způsobená vadnými sektory nebo opotřebovanými čtecími hlavami nemusí znamenat nevratnou ztrátu dat. Klíčové je neprovádět opakované pokusy o čtení svépomocí, protože každý takový pokus mechaniku disku dále opotřebovává. Co nejdříve kontaktujte specializovanou laboratoř a disk přestaňte zbytečně zatěžovat.
Doba obnovy závisí na rozsahu poškození a kapacitě disku. U tohoto 4TB disku Seagate IronWolf Pro trval celý imaging 41 hodin. U disků s méně rozsáhlým poškozením může být obnova výrazně rychlejší. Pro firmy s akutní potřebou obnovení provozu nabízíme expresní obnovu dat s nepřetržitým provozem.
Disk vyměňte neprodleně, pokud hodnota Reallocated Sector Count překročí 1 000, pokud parametr Pending Sector Count vykazuje nenulové a rostoucí hodnoty, nebo pokud zaznamenáte trvalé a nevysvětlitelné zpomalení přenosových rychlostí. Dalšími varovnými signály jsou opakované chybové hlášky v systémovém logu NAS nebo neobvyklé zvuky z disku. Podrobné informace o tom, co vadné sektory způsobují, najdete na stránce věnované vadným sektorům na disku.
RAID 1 (zrcadlení) chrání před selháním jednoho fyzického disku, ale není náhradou zálohy. Pokud druhý disk v poli funguje správně, lze z něj data přenést na nový disk. Problém nastane, pokud oba disky selžou současně, dojde k logickému poškození souborového systému, nebo uživatel data omylem smaže. RAID navíc dokonale zakrývá pomalou degradaci: NAS systém sice může kompenzovat nečitelné sektory daty ze zrcadlového disku, ale vadný disk tak funguje zdánlivě normálně až do úplného selhání. SMART hodnoty je proto nezbytné monitorovat aktivně a nezávisle na hlášeném stavu RAID pole.
PC-3000 Express je profesionální diagnostická a záchranná platforma vyvinutá společností ACE Laboratory, určená výhradně pro specializované laboratoře. Na rozdíl od běžného softwaru komunikuje s diskem na hardwarové úrovni prostřednictvím speciálního řadiče. To umožňuje přístup k servisní oblasti disku, kalibraci adaptivních parametrů čtecích hlav a čtení dat i z médií, která operační systém vůbec nedetekuje. Jde o jeden z mála nástrojů schopných pracovat s disky v pokročilém stadiu mechanické degradace.