Upozornění: servery HPE mají chybu ve firmware disku SSD. Kvůli chybě veškeré disky selžou přesně po 3 ¾ letech

Někdy se nadsazeně mluví o tom, že v produktech spotřební elektroniky jsou součástky, slušně označené jako "kazítka". Mimo oblast konspiračních teorií se nyní taková "vlastnost" nechtěně dostala do některých SSD prodávaných společností HP. Nejedná se ovšem o zlý úmysl, nýbrž o neúmyslné programátorské selhání výrobce těchto disků. To má bohužel za následek, že všechny tyto disky selžou přesně po třech letech a 270 dnech. Společnost HP proto nyní upozorňuje zákazníky, že musí aktualizovat firmware, jinak přijdou o svá data, ale také o svůj hardware.

Upozornění: servery HPE mají chybu ve firmware disku SSD. Kvůli chybě veškeré  disky selžou přesně po 3 ¾ letech

Informace o této nepříjemné chybě jsou spojovány se společností HP - konkrétně s jejím podnikovým sourozencem HPE, který chybu oznámil ve svém bulletinu. Podle jeho textu se však jedná o SSD jiného výrobce, které HPE do serverů dodává, ale pravděpodobně přímo nevyrábí a možná ani nevyvíjí postižený firmware. Jedná se o SSD pro rozhraní SAS, takže typicky by vám nehrozilo, že se bude skrývat v běžném počítači. Pokud však používáte servery HPE, mějte se na pozoru.

Selhání pravděpodobně kvůli použití krátkého integeru. Chyba firmwaru disku způsobuje, že disk SSD disk přestal fungovat po dokončení 32 768 hodin provozu, což jsou 3 roky, 270 dní a 8 hodin. Důvodem je zřejmě použití omezeného datového typu pro některou proměnnou spojenou s dobou běhu (16bitové celé číslo se znaménkem má rozsah pouze mínus 32768 až plus 32767) namísto vhodnějšího většího typu a firmware si nedokáže poradit, když proměnná přeteče. Disk SSD je pak nenávratně "bricknut" a nelze jej již oživit, což kromě odpisu způsobí i ztrátu dat.

To platí zejména v případě, že se proti takovým problémům chráníte polem RAID. Je velmi pravděpodobné, že disky v něm jsou stejně staré a fungují prakticky stejně dlouho, takže kvůli této chybě selžou všechny najednou, aniž by bylo možné špatné kusy včas nahradit a pole zachránit přestavbou. Společnost HPE proto varuje před selháním celého pole RAID.

SSD disky postižené touto chybou byly dodány v serverech a úložných řešeních HPE. Podle společnosti mohou být postiženy modely HPE ProLiant, Synergy, Apollo, JBOD řady D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 a StoreVirtual 3200, pokud mají nainstalováno úložiště SAS. V tomto dokumentu je uvedena tabulka dotčených disků a níže také seznam serverů a produktů, kterých se to může týkat. Jednotlivé dotčené disky SSD mají kapacitu od 400 do 15,3 TB.

Pro vyřešení problému je třeba aktualizovat firmware na verzi HPD8

Postižené disky SSD je bezpodmínečně nutné aktualizovat na opravenou verzi firmwaru HPD8, protože porucha je plně deterministická a  postihne naprosto všechny exempláře. Tento firmware je pro některé disky k dispozici od 22. listopadu, pro některé disky, které byly vyrobeny později a k selhání tedy nedojde tak brzy, by měla být záplata k dispozici kolem 9. prosince. Mimochodem, společnost HP sdělila, že se o chybě dozvěděla od výrobce SSD 15. listopadu, takže reakce je zřejmě poměrně rychlá.