Cos'è la gestione degli incidenti?
La gestione degli incidenti (IM) è il processo utilizzato dai team IT per rispondere a un'interruzione non pianificata del servizio. Le interruzioni impreviste si verificano a causa di incidenti come la perdita o il deterioramento della connettività di rete, la mancata esecuzione di un'attività pianificata (come un'attività di backup) o un'API che non risponde. Il processo di gestione degli incidenti tenta di ripristinare rapidamente il normale funzionamento del servizio IT e ridurre al minimo l'impatto aziendale. Nel processo, il team rileva e indaga sugli incidenti, risolve i problemi e documenta le misure adottate per ripristinare il servizio.
Quali sono gli eventi che richiedono la gestione degli incidenti?
Il termine gestione degli incidenti non viene utilizzato esclusivamente nel campo IT. Al di fuori dell'IT, sentirai parlare di gestione degli incidenti in campi come servizi di emergenza, gestione di eventi su larga scala e operazioni degli impianti.
Ai fini di questo articolo, ci riferiamo alla gestione degli incidenti nel contesto della gestione dei servizi IT (ITSM). In questo contesto, la gestione degli incidenti si concentra sulle attività di gestione relative alla qualità del servizio e al servizio clienti stesso.
Di seguito sono trattati diversi eventi IT nell'ambito della gestione degli incidenti in ITSM.
Incidente
Nell'ambito della gestione degli incidenti, gli incidenti possono essere definiti come eventi imprevisti che causano un calo della qualità prevista o concordata del servizio IT. La portata dell'incidente può essere piccola o grande e tu puoi indicare la relativa criticità. Ad esempio, il calo della qualità di un servizio potrebbe essere minimo e limitato a una posizione geografica specifica. Oppure il servizio potrebbe subire un'interruzione completa in numerose aree geografiche.
Problema
Un problema si riferisce alla causa alla base dell'incidente che viene scoperta dopo ulteriori indagini ed è necessaria per la risoluzione completa dell'incidente. Ad esempio, se un server Web funziona lentamente, il problema potrebbe essere un'errata configurazione del router nel data center o un cavo di rete interrotto lungo il perimetro.
Modifica
Nella gestione degli incidenti, una modifica si riferisce a quando un servizio stesso viene modificato per migliorare la qualità o aggiungere nuove funzionalità, ad esempio. Durante il periodo di modifica, il rollover deve essere gestito con attenzione per evitare o ridurre al minimo l'interruzione delle normali operazioni aziendali. Ciò include la consulenza ai clienti in caso di interruzioni del servizio previste o potenziali.
Richiesta di assistenza
Una richiesta di assistenza è una richiesta avviata dal cliente entro i limiti dei termini del contratto fornitore-cliente. La richiesta deve essere eseguita senza interruzioni delle normali operazioni.
Come funziona la gestione degli incidenti?
La gestione degli incidenti utilizza una serie di processi documentati che delineano chiaramente cosa è necessario fare per ridurre al minimo l'impatto negativo e la durata delle interruzioni IT. Oltre alla gestione tecnica di ciò che è andato storto, include anche la gestione delle aspettative di clienti, utenti e stakeholder durante un incidente.
Per i clienti, gli accordi sul livello di servizio (SLA) definiscono chiaramente le garanzie di operatività previste, i tempi di risoluzione e i canali di comunicazione per gli incidenti. Richiede una gestione completa degli incidenti da parte del fornitore di servizi per soddisfare i termini e le condizioni dello SLA.
Ulteriori informazioni riguardo gli SLA »
Framework di gestione degli incidenti IT
Esistono vari framework che le organizzazioni utilizzano per modellare la propria gestione degli incidenti. Due esempi sono Incident Management di IT Infrastructure Library (ITIL) 4 e Cybersecurity Framework del National Institute of Standards and Technology (NIST). Questi framework possono essere utilizzati così come sono o essere estesi per adattarsi ad ambienti aziendali, servizi e standard di comunicazione unici per clienti e stakeholder.
Il software di gestione degli incidenti viene spesso utilizzato per implementare un framework all'interno di un'organizzazione. Il framework esatto utilizzato dipende dai servizi offerti.
Quali sono le fasi del processo di gestione degli incidenti?
Le fasi coinvolte nei processi di gestione degli incidenti dipendono dal framework utilizzato all'interno dell'organizzazione. Di seguito vengono illustrati i passaggi principali di molti framework comuni per la gestione del ciclo di vita degli incidenti.
Identificazione del rischio
L'identificazione di asset, sistemi, dati e altre risorse critiche determina quali sono i maggiori rischi per l'azienda. Nel contesto della fornitura di servizi ai clienti, si tratta di identificare i sistemi e le risorse più importanti.
Protezione delle risorse
Una volta identificate le risorse, le organizzazioni rafforzano i controlli di sicurezza e prestazioni. Ad esempio, un'applicazione potrebbe essere implementata in diverse regioni per garantire la disponibilità continua in caso di interruzioni regionali.
Rilevamento degli incidenti
È necessario disporre di sistemi per monitorare lo stato degli asset critici in modo che eventuali incidenti possano essere identificati in tempo reale. Le organizzazioni devono essere proattive nel monitoraggio delle anomalie; di solito non è preferibile venire a conoscenza di un'interruzione prima da un cliente che la segnala personalmente. Il tutto si basa sulla riparazione proattiva.
Risposta agli incidenti
Una volta rilevato un incidente, è necessario arrestare immediatamente qualsiasi interruzione. Se ciò non è possibile, dovrai seguire una procedura per contenere o limitare l'impatto. Potrebbe anche essere necessario attivare sistemi secondari in modo che le operazioni possano riprendere anche in assenza di una soluzione rapida. Gran parte di questa procedura può essere automatizzata, a seconda della natura dell'incidente e degli attuali strumenti di gestione degli incidenti.
Recupero dagli incidenti
Nella fase di recupero, inizia l'analisi dell'incidente. In questa fase acquisisci cosa hai imparato, formuli piani di risposta migliori e correggi problemi e processi. Gli incidenti gravi possono richiedere sforzi di ripristino significativi. L'immagine seguente mostra uno dei processi di gestione degli incidenti utilizzati da Amazon Web Services (AWS).
Quali sono le best practice per la gestione degli incidenti?
Le best practice aiutano le organizzazioni a operare al livello più maturo all'interno di una determinata unità aziendale o area strategica. Seguendo le best practice nei sistemi di gestione degli incidenti, puoi fornire il miglior servizio possibile ai tuoi clienti.
Sviluppo di policy di escalation
Dovresti essere in grado di classificare gli incidenti in base alla loro priorità e gravità per definire tempistiche, rimedi e indagini. È necessario adottare policy di escalation quando la risposta agli incidenti non procede come previsto o se si verifica un incidente grave di elevata priorità o gravità. Senza queste policy, il tuo team potrebbe perdere tempo a decidere chi contattare e cosa fare.
Pianificazione delle comunicazioni in dettaglio
Le parti interessate, dal team IT agli utenti finali, devono essere tenute informate sullo stato degli incidenti. È inoltre importante disporre di canali di comunicazione chiari in modo che le persone interessate sappiano a chi rivolgersi per ricevere aggiornamenti o segnalare nuovi incidenti. Disponendo di piani di comunicazione chiari, è possibile creare fiducia ed evitare colpe ingiustificate. Gli incidenti critici vengono sempre gestiti con diplomazia.
Esegui l'analisi della causa principale
Dopo aver risolto un incidente, è necessario eseguire un'analisi della causa principale per capire perché l'incidente si è verificato in primo luogo. Ciò aiuta a identificare lacune o vulnerabilità nel sistema, che è possibile risolvere per prevenire incidenti simili in futuro. Le lezioni apprese da ogni incidente sono utili per migliorare continuamente l'infrastruttura e i processi IT.
Adozione di pratiche di ingegneria del caos
L'ingegneria del caos è una disciplina dell'ingegneria del software in cui i sistemi sono intenzionalmente soggetti a condizioni dirompenti, come guasti dei server, latenze di rete o limitazioni delle risorse. L'integrazione del caos nei sistemi mette alla prova la loro resilienza e rafforza anche i processi di risposta e gestione degli incidenti di un'organizzazione. Si tratta di una tecnica simile all'implementazione dell'hacking etico nella gestione degli incidenti di sicurezza informatica.
In che modo AWS può supportare i tuoi requisiti di gestione degli incidenti?
AWS offre una gamma di servizi che aiutano le organizzazioni a fornire una gestione efficace degli incidenti all'interno di AWS e ambienti ibridi.
Il rilevamento e risposta agli incidenti di AWS offre ai clienti di supporto AWS enterprise un monitoraggio proattivo e la gestione degli incidenti per carichi di lavoro selezionati. Collaborando con esperti, definisci parametri critici, allarmi e pianificazioni di prioritizzazione per un sistema di gestione degli incidenti IT per accelerare il ripristino in caso di incidente.
Servizi gestiti AWS (AMS) aiuta a proteggere le informazioni dell'organizzazione, nonché la sua infrastruttura, con le funzionalità di risposta e risoluzione degli incidenti di AWS. AMS può essere utilizzato per esternalizzare la gestione degli incidenti IT di AWS, in modo che l'organizzazione possa concentrarsi sul core business. Ecco cosa puoi fare con AMS:
- Richiedi assistenza per problemi e richieste operativi in qualsiasi momento tramite il Centro supporto AWS nella console AWS
- Accedi all'assistenza 24 ore su 24, 7 giorni su 7, con tempi di risposta dipendenti dal livello di servizio dell'account selezionato (Plus, Premium)
- Ricevi notifiche proattive di avvisi e domande importanti utilizzando gli stessi meccanismi
Come parte del framework AWS Well-Architected, forniamo anche linee guida chiare per la gestione degli incidenti nel cloud. È una buona risorsa per pianificare la gestione degli incidenti per le organizzazioni che offrono i propri servizi IT che utilizzano i servizi cloud AWS. La Guida sulla risposta agli incidenti di sicurezza di AWS è un altro materiale utile per gli incidenti relativi alla sicurezza.
Inizia a utilizzare la gestione degli incidenti su AWS creando un account oggi stesso.
Fasi successive con AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.