Gestione degli incidenti di Google Maps Platform

Ciclo di vita di un incidente

Google Maps Platform è conforme al framework di gestione degli incidenti di Google Cloud Platform.

Quando si verifica un'interruzione o un deterioramento del servizio, il team di tecnici del prodotto e il team di assistenza di Google Maps Platform collaborano per risolvere l'incidente e te lo comunicano.

lifecycle

Rilevamento

Google utilizza il monitoraggio interno e black box per rilevare incidenti e attivare avvisi per i nostri tecnici per le indagini. Per maggiori informazioni, consulta il Capitolo 6 del libro Site Reliability Engineering.

Se rilevi un incidente che non è ancora stato segnalato nel Monitoraggio dei problemi, vai alla pagina Crea una richiesta di assistenza di Google Maps Platform (nella console Google Cloud) e crea una nuova richiesta di assistenza.

Risposta iniziale

Quando Google rileva un incidente, il team di assistenza guida la comunicazione con te. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione insieme ai sintomi principali. Questo perché diamo la priorità alle notifiche rapide rispetto ai dettagli. Man mano che avremo acquisito ulteriori informazioni, verranno forniti ulteriori dettagli nei prossimi aggiornamenti.

risposta

Canali di comunicazione relativi agli incidenti

Per fornire la quantità appropriata di informazioni, il team di assistenza di Google Maps Platform offre diversi canali di comunicazione relativi agli incidenti, a seconda dell'ambito e della gravità di un problema:

La Dashboard dello stato pubblica di Maps è la prima risorsa da cui puoi verificare quando scopri che un problema ti riguarda. La dashboard mostra gli incidenti che interessano molti clienti, quindi se viene elencato un incidente probabilmente correlato al tuo problema. Per indicare la gravità, la dashboard dello stato contrassegna gli incidenti come interruzione del servizio, interruzione o informazione.

Il gruppo di notifiche di Google Maps Platform è un gruppo Google pubblico in cui vengono segnalate tutte le interruzioni diffuse, oltre ad altri aggiornamenti tecnici sulle API di Google Maps Platform. Tutti i membri del gruppo riceveranno una notifica via email quando viene rilevata inizialmente un'interruzione con aggiornamenti successivi fino alla risoluzione del problema.

La scheda dello stato di Maps Platform è un messaggio informativo sempre visibile nella sezione Assistenza Maps di Cloud Console che mostra lo stato attuale delle API e dei servizi di Maps Platform. In caso di incidente attivo, viene visualizzato un messaggio che identifica il prodotto interessato e include un link alla dashboard dello stato pubblico di Maps, in cui puoi visualizzare gli incidenti attivi.

interruzione del servizio

Il Tracker dei problemi contiene un elenco di riferimento di tutti gli incidenti noti. Puoi visualizzare gli incidenti aperti, seguirne l'avanzamento iscrivendoti agli incidenti e aggiungere commenti per aiutare i nostri team a effettuare accertamenti. Il link a Issue Tracker è disponibile anche nella documentazione di assistenza di Google Maps Platform.

Le richieste di assistenza vengono utilizzate se il problema potrebbe essere isolato ai tuoi progetti o interessa un numero limitato di clienti. Se non è stato dichiarato alcun incidente, ma continui a riscontrare il problema, vai alla pagina Crea una richiesta di assistenza di Google Maps Platform (nella console Cloud) e crea una nuova richiesta di assistenza.

Indagine

I team di tecnici del prodotto sono responsabili di indagare sulla causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineers, ma può essere eseguita da ingegneri informatici o altri, a seconda della situazione e del prodotto. Per maggiori informazioni, consulta il Capitolo 12 del Site Reliability Engineering Book.

Mitigazione/Correzione

Un problema viene considerato risolto solo quando sono state apportate modifiche che, secondo Google, potrebbero interrompere l'impatto a tempo indeterminato. Ad esempio, la correzione potrebbe essere il rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, i team di assistenza e prodotto cercheranno di attenuare il problema. La mitigazione si verifica quando è possibile ridurre l'impatto o l'ambito di un problema, ad esempio fornendo temporaneamente risorse aggiuntive a un servizio sottoposto a sovraccarico.

Se non sono state trovate attenuazioni, quando possibile, il team di assistenza troverà e comunicherà soluzioni. Le soluzioni alternative sono i passaggi che puoi seguire per risolvere l'esigenza di fondo nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API al fine di evitare un percorso del codice problematico.

Follow Up

Mentre è in corso un incidente, il team di assistenza fornisce aggiornamenti regolari. In genere gli aggiornamenti offrono:

  • Maggiori informazioni sull'incidente, ad esempio i messaggi di errore, le funzionalità interessate e la sua diffusione.
  • Progressi verso la mitigazione, incluse eventuali soluzioni alternative.
  • Sequenza temporale della comunicazione personalizzata in base all'incidente.
  • Modifiche di stato, ad esempio quando un incidente è stato risolto.

Postmortem

Tutti gli incidenti comportano un'analisi interna post mortem (post-incidente) per comprendere appieno l'incidente e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono quindi monitorati e implementati. Per ulteriori informazioni sui post morteem di Google, consulta il Capitolo 15 del Site Reliability Engineering Book.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che descrivono sintomi, impatto, causa principale, soluzioni e prevenzione degli incidenti futuri. Come per i post mortem, prestiamo particolare attenzione ai passaggi che compiamo per imparare dal problema e migliorare l'affidabilità. L'obiettivo di Google nella scrittura e nel rilascio dei post mortem è garantire la trasparenza e dimostrare il proprio impegno a offrire servizi stabili per i propri clienti.

Domande frequenti

Voglio ricevere una notifica quando è in corso un'interruzione. Che cosa devo fare?

  • Unisciti al gruppo delle notifiche di Google Maps Platform per ricevere notifiche sui problemi in corso e seguire lo stato dell'incidente in tempo reale. Questo gruppo ti aiuterà anche a ricevere aggiornamenti sugli annunci relativi a prodotti e piattaforme.
  • Utilizza i link Feed RSS o Cronologia JSON nella parte inferiore della Dashboard dello stato pubblico di Maps per visualizzare un feed degli incidenti attuali e passati. Ogni post nella Dashboard attiverà un post nel feed. Per tenerti aggiornato, ogni post nel feed includerà tutti i messaggi e gli aggiornamenti relativi all'evento della dashboard corrispondente. In questo modo, non dovrai analizzare la cronologia dei feed per capire come procede. I feed RSS vengono pubblicati in formato XML. Le estensioni del browser, come l' estensione RSS Subscription (di Google), ti consentono di visualizzare l'anteprima dei contenuti del feed e di iscriverti tramite il tuo lettore RSS preferito. La cronologia JSON è un feed web JSON di incidenti passati. Una gamma di librerie software e framework web supportano la distribuzione in syndication dei contenuti tramite il feed JSON.

Che tipo di informazioni sullo stato posso trovare nella home page della dashboard?

La dashboard dello stato pubblico di Google Maps fornisce informazioni sulle API e sui servizi che fanno parte di Google Maps Platform. In caso di incidente attivo, le informazioni relative a ogni API e servizio specifico vengono pubblicate qui all'interno di Google Maps Platform. Gli indicatori di stato vengono sempre mostrati, che rappresentano l'integrità complessiva per ogni API e ogni servizio, in base a uno dei seguenti elementi:

  • Interruzione del servizio: un sistema o un servizio di produzione non è attivo. La soluzione alternativa non è disponibile o non può essere implementata facilmente.
  • Interruzione del servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. La soluzione alternativa esiste.
  • Informazioni sul servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. In genere, il servizio è ancora disponibile, l'impatto è minimo e interessa un numero limitato di utenti.
  • Disponibile: il servizio è completamente funzionante e funziona come previsto.

La dashboard è in tempo reale?

La dashboard dello stato pubblico di Maps è concepita per fornire uno stato quasi in tempo reale dei prodotti generalmente disponibili e coperti dallo SLA (accordo sul livello del servizio) di Google Maps Platform. Tutti gli incidenti vengono verificati prima della pubblicazione, pertanto potrebbe verificarsi un leggero ritardo dal momento in cui sono stati rilevati per la prima volta. Pertanto, la dashboard non deve essere utilizzata per scopi di monitoraggio del tempo di attività.

Posso utilizzare la dashboard per monitorare l'uptime di Google Maps Platform?

La dashboard dello stato pubblico di Maps non è concepita per monitorare lo stato dei servizi GMP in base allo SLA di GMP, poiché le durate delle interruzioni mostrate nella dashboard potrebbero non riflettere il "Tempo di inattività" effettivo (come definito nello SLA) del tuo progetto, soprattutto nel caso di incidenti di minore gravità. Inoltre, le durate mostrate potrebbero includere tempo aggiuntivo dopo la riduzione del problema per confermare completamente la correzione.

Per monitorare l'utilizzo delle API, creare dashboard e avvisi, visita Google Maps Platform Monitoring.

Cosa succede se non vedo alcun incidente sul pannello?

Non tutti i clienti e i progetti sono interessati da ogni incidente. Nella dashboard sono riportati solo gli incidenti gravi e gravi. Se si verifica un problema non elencato nella dashboard, contatta l'assistenza .

Dove posso trovare informazioni su interruzioni e interruzioni del servizio precedenti?

La pagina Cronologia nella dashboard dello stato pubblico di Maps contiene un repository delle interruzioni e delle interruzioni negli ultimi 365 giorni. Fai clic su un incidente per esaminare i relativi post mentre era in corso, nonché i relativi report pubblicati dal team di assistenza.

Chi aggiorna la dashboard?

Il team di assistenza globale di Google Maps Platform monitora lo stato dei servizi utilizzando molti tipi diversi di indicatori e aggiorna la dashboard in caso di problemi diffusi. Se necessario, pubblicheranno anche un report dettagliato di analisi dopo la risoluzione dell'incidente.

Qual è la differenza tra "incidente" e "interruzione"?

Sebbene questi termini siano spesso utilizzati in modo intercambiabile, la dashboard dello stato pubblico di Maps e le nostre comunicazioni esterne utilizzano "incident" per riferirsi a qualsiasi periodo di degrado e "interruzione" del servizio, per riferirsi solo ai danni più gravi, quando un servizio non funziona nella misura in cui rende effettivamente inutile l'esperienza dei nostri clienti.