Gérer les incidents Google Maps Platform

Cycle de vie d'un incident

Google Maps Platform respecte le framework Google Cloud Platform de gestion des incidents.

En cas d'indisponibilité ou de dégradation du service, les ingénieurs produit et l'équipe d'assistance Google Maps Platform travaillent conjointement pour résoudre l'incident, et communiquent avec vous à ce sujet.

Cycle de vie

Détection

Google a instauré une surveillance interne et par boîte noire pour détecter les incidents et déclencher l'envoi d'alertes à nos ingénieurs pour enquête. Pour en savoir plus, consultez le chapitre 6 du manuel d'ingénierie en fiabilité des sites (SRE).

Si vous détectez un incident qui n'a pas encore été signalé dans l'Issue Tracker, accédez à la page d'assistance Google Maps Platform (dans Google Cloud Console) et créez une demande d'assistance.

Réponse initiale

Lorsque Google détecte un incident, l'équipe d'assistance engage la communication avec vous. La notification initiale d'un incident est souvent sommaire, ne mentionnant généralement que le produit concerné et les principaux problèmes constatés. Nous privilégions en effet la rapidité de la notification aux détails de l'incident. D'autres informations vous seront communiquées à mesure que nous en apprendrons davantage.

réponse

Canaux de communication pour les incidents

L'équipe d'assistance de Google Maps Platform propose plusieurs canaux de communication en cas d'incident pour fournir la quantité d'informations appropriée, en fonction de l'étendue et de la gravité du problème.

Lorsque vous découvrez un problème qui vous concerne, consultez en premier lieu le tableau de bord d'état public de Maps. Ce tableau de bord indique les incidents qui affectent de nombreux clients. Par conséquent, si un incident est listé, il est probablement lié à votre problème. Pour indiquer le niveau de gravité, le tableau de bord d'état marque les incidents en tant qu'interruption de service, service perturbé ou informations sur les services.

Le groupe Google Maps Platform Notifications est un groupe Google public dans lequel tous les problèmes d'indisponibilité généralisée sont signalés, avec d'autres informations techniques concernant les API Google Maps Platform. Tous les membres du groupe reçoivent une notification par e-mail dès qu'une indisponibilité est détectée, puis des informations sur l'avancement du problème jusqu'à ce qu'il soit résolu.

La fiche d'état de Maps Platform est un message d'information qui est toujours visible dans la section Assistance Maps de Cloud Console. Elle indique l'état actuel des API et des services Maps Platform. En cas d'incident actif, un message identifie le produit concerné et inclut un lien vers le tableau de bord d'état public de Maps, qui vous indique les problèmes en cours.

interruption

L'Issue Tracker contient une liste de référence de tous les incidents connus. Vous pouvez consulter les incidents en cours, suivre leur progression en vous y abonnant, et ajouter des commentaires pour aider nos équipes à enquêter sur le problème. Vous trouverez aussi le lien vers l'Issue Tracker public dans la documentation d'assistance Google Maps Platform.

Des demandes d'assistance sont utilisées si le problème ne concerne que vos projets ou affecte un nombre limité de clients. Si aucun incident n'a été déclaré, mais que vous rencontrez un problème, accédez à la page d'assistance Google Maps Platform (dans Cloud Console) et créez une demande d'assistance.

Enquête

Les ingénieurs produit sont chargés d'enquêter sur l'origine des incidents. La gestion des incidents est souvent assurée par des ingénieurs en fiabilité des sites (SRE), mais elle peut être confiée à des ingénieurs logiciels ou à d'autres spécialistes, en fonction de la situation et du produit. Pour en savoir plus, consultez le chapitre 12 du manuel d'ingénierie en fiabilité des sites (SRE).

Atténuation/Résolution

Un problème n'est considéré comme résolu que lorsque des modifications ont été apportées et que Google a la certitude qu'elles vont le régler définitivement. Par exemple, un rollback peut être effectué pour annuler une modification ayant déclenché un incident.

Lorsqu'un incident est en cours, les équipes d'assistance et de produits tentent d'atténuer le problème. Atténuer un problème consiste à en réduire l'impact ou l'étendue, par exemple, en fournissant temporairement des ressources supplémentaires à un service présentant une surcharge.

Si aucune mesure d'atténuation n'a été trouvée, l'équipe d'assistance trouve des solutions de contournement, lorsque cela est possible, et les communique. Il s'agit d'étapes que vous pouvez suivre pour répondre à votre besoin en dépit de l'incident. Une solution de contournement peut par exemple consister à utiliser des paramètres différents pour un appel d'API afin d'éviter un chemin de code problématique.

Suivi

Lorsqu'un incident est en cours, l'équipe d'assistance transmet régulièrement des informations lesquelles fournissent généralement :

  • plus d'informations sur l'incident, par exemple, les messages d'erreur, les fonctionnalités affectées et la portée de cet incident ;
  • l'avancement du processus d'atténuation, y compris les solutions de contournement ;
  • le calendrier des communications, adapté à l'incident ;
  • les changements d'état, par exemple, lorsqu'un incident est résolu.

Analyse post-mortem

Tous les incidents entraînent une analyse interne post-mortem (post-incident) afin de comprendre pleinement l'incident et d'identifier les améliorations que Google peut apporter pour plus de fiabilité. Ces améliorations sont ensuite suivies et mises en place. Pour en savoir plus sur les analyses post-mortem effectuées par Google, consultez le chapitre 15 du manuel d'ingénierie en fiabilité des sites (SRE).

Rapport d'incident

Lorsque les incidents ont des conséquences importantes et très étendues, Google fournit des rapports d'incident décrivant les symptômes, l'impact, l'origine, les mesures correctives et les futures actions de prévention. Comme pour les analyses post-mortem, nous accordons une attention particulière aux mesures que nous prenons pour tirer les leçons du problème et améliorer la fiabilité. Chez Google, en rédigeant et en publiant des analyses post-mortem, nous faisons preuve de transparence et montrons que nous tenons à créer des services stables pour nos clients.

FAQ

Je souhaite être averti si un service est indisponible. Que dois-je faire ?

  • Rejoignez le groupe Google Maps Platform Notifications pour suivre les problèmes en cours et l'avancement de l'incident en temps réel. Il vous permettra également de vous informer sur les produits et la plate-forme.
  • Cliquez sur les liens Flux RSS ou Historique de JSON au bas du tableau de bord d'état public de Maps pour afficher le flux des incidents actuels et antérieurs. Chaque message publié dans le tableau de bord déclenche une publication dans le flux. Pour vous tenir informé, chaque publication du flux inclura tous les messages et mises à jour concernant l'événement de tableau de bord correspondant. Ainsi, vous n'aurez pas besoin de parcourir l'historique du flux pour reconstituer l'évolution de la situation. Les flux RSS sont publiés au format XML. Les extensions de navigateur telles que l'Extension Abonnement RSS (par Google) vous permettent de prévisualiser le contenu du flux et de vous abonner via votre lecteur RSS favori. L'historique JSON est un flux Web JSON des incidents antérieurs. Différents frameworks Web et bibliothèques logicielles acceptent la syndication de contenu via un flux JSON.

Quel type d'informations d'état puis-je trouver sur la page d'accueil du tableau de bord ?

Le tableau de bord d'état public de Google Maps fournit des informations sur les API et les services faisant partie de Google Maps Platform. Si un incident est en cours, des informations y sont publiées pour chaque API et service spécifique de Google Maps Platform. Les indicateurs d'état sont toujours visibles, et représentent l'un des états généraux suivants pour chaque API et chaque service :

  • Interruption de service : un système de production ou un service est arrêté. Il n'existe pas de solution, ou la solution n'est pas facile à mettre en œuvre.
  • Service perturbé : un système de production ou un service est partiellement altéré et/ou ne fonctionne pas comme prévu. Une solution existe.
  • Informations sur les services : un système de production ou un service est partiellement altéré et/ou ne fonctionne pas comme prévu. En général, le service est toujours disponible, et le problème a un impact mineur et n'affecte qu'un petit nombre d'utilisateurs.
  • Disponible : le service est entièrement opérationnel et fonctionne comme prévu.

Le tableau de bord offre-t-il des informations en temps réel ?

Le tableau de bord d'état public de Maps est conçu pour indiquer presque en temps réel l'état des produits généralement disponibles et couverts par le contrat de niveau de service de Google Maps Platform. Tous les incidents sont d'abord confirmés avant d'être publiés. Il peut donc y avoir un léger décalage par rapport au moment où ils ont été détectés. Par conséquent, vous ne devez pas utiliser le tableau de bord pour suivre le temps d'activité.

Que faire si aucun incident n'est visible dans le tableau de bord ?

Chaque incident ne concerne pas tous les clients. Seuls les plus étendus et les plus graves sont indiqués. Si vous rencontrez un problème non listé dans le tableau de bord, contactez l'assistance.

Où puis-je trouver des informations sur les perturbations et interruptions de service antérieures ?

La page Historique du tableau de bord d'état public de Google Maps regroupe les perturbations et les interruptions survenues au cours des 365 derniers jours. Cliquez sur un incident pour afficher les posts concernant l'incident au moment où il s'est produit, ainsi que les rapports d'incident publiés par l'équipe d'assistance.

Qui met à jour le tableau de bord ?

L'équipe d'assistance mondiale de Google Maps Platform surveille l'état des services via de nombreux types de signaux différents et met à jour le tableau de bord en cas de problème généralisé. Au besoin, elle publie également un rapport d'analyse détaillé une fois qu'un incident a été résolu.

Quelle est la différence entre un "incident" et une "indisponibilité" ?

Bien que ces termes soient souvent employés indifféremment, "incident" est utilisé dans le tableau de bord d'état public de Maps et dans nos communications externes pour désigner toute période de dégradation de service. Le terme "indisponibilité" n'est utilisé que pour les problèmes les plus sérieux, lorsqu'un service n'est pas opérationnel et se trouve de fait inutilisable par nos clients.