Questa settimana vi presentiamo un contenuto particolare, si tratta di uno stralcio di una delle mail che in Enterprise OSS ci mandiamo, era così interessante che abbiamo deciso di renderla pubblica, racconta di noi e della forza della community.
“
Ciao Matteo,
si tratta di un caso molto interessante di gestione e troubleshooting di un problema avvenuto il 20/02/2020 presso l'infrastruttura IT dei laboratori del CERN (Ginevra), in particolare un problema concernente il sistema di storage cluster.
Dal 2013 il sistema di storage distribuito open source CEPH è diventato un punto chiave dell'infrastruttura dati del centro di ricerca, a cui si collegano centinaia di utilizzatori (prevalentemente clusters Openstack) che usufruiscono di 4 PiB (circa 4500 TeraBytes) di dati solo per la virtualizzazione..... (se si contano anche gli archivi web S3 ed i filesystems cephfs la quantità di dati raggiunge i 35PiB).
Dal 2013 non era ancora avvenuto un problema di livello "alto" come questo.
Poco dopo le 10 del mattino di giovedì 20 febbraio il 25% del sistema storage dedicato alla virtualizzazione simultaneamente non era più online.
Dopo una prima investigazione interna (circa 2 ore) i responsabili tecnici si rivolgono alla community Ceph mediante i canali a disposizione (chat IRC, mailing lists, bug tracker) segnalando il problema.
Evitando i dettagli tecnici, è interessante notare che dopo circa 20 min dalla segnalazione, un utente Ceph indicava via chat un caso analogo a cui riferirsi e di lì a poco (1 ora dopo la segnalazione) i responsabili informatici del Cern avevano in mano una soluzione per risolvere il problema, che in altre 5 ore era completamente risolto...
Nessun dato è stato perso. Che paura!
Ovviamente l'analisi è proseguita a fondo verificando le diverse ipotesi di cause dell'errore, anche col supporto di Sage Weil (giovane inventore di Ceph) e la community Github di LZ4 (un noto algoritmo di compressione) fino a trovare e replicare la causa del problema (raro) legata proprio al comportamento degli algoritmi di compressione LZ4 in determinate condizioni sui sistemi CentOS7 ed Ubuntu 18.04.
È stata introdotta una fix al sistema LZ4 e si è verificato che nelle stesse condizioni l'errore non si è più ripetuto.
I responsabili informatici del Cern avevano attivato la compressione su Ceph nel 2019 per salvare spazio (molto…).
A loro detta da questa vicenda (direi elettrizzante) hanno imparato diverse cose:
- qualsiasi sistema informatico è fallibile
- non bisogna abituarsi troppo bene quando tutto funziona, anche per tanto tempo
- quando la mole di dati è così elevata l'utilizzo di un UNICO grande cluster storage per i servizi diventa un "single point of failure”, ora stanno introducendo altri nuovi 4 storage cluster CEPH.
Personalmente aggiungerei un'ultima cosa:
la forza della community è importante…
Anche nel nostro piccolo... impariamo dall’esperienza!
Alessandro G.
“
So che non vi basta e vorreste saperne di più se siete arrivati fino a qui, dunque ecco il link che ha originato queste righe
https://www.youtube.com/watch?v=_4HUR00oCGo&feature=youtu.be
Sono 30 minuti tutti da gustare, buon ascolto.
Enterprise OSS Staff