Gérer les incidents Google Maps Platform

Cycle de vie d'un incident

Google Maps Platform respecte le framework Google Cloud Platform de gestion des incidents.

En cas d'indisponibilité ou de dégradation du service, les ingénieurs produit et l'équipe d'assistance Google Maps Platform travaillent conjointement pour résoudre l'incident, et communiquent avec vous à ce sujet.

Cycle de vie

Détection

Google a instauré une surveillance interne et par boîte noire pour détecter les incidents et déclencher l'envoi d'alertes à nos ingénieurs pour enquête. Pour en savoir plus, consultez le chapitre 6 du manuel d'ingénierie en fiabilité des sites (SRE).

Si vous détectez un incident qui n'a pas encore été signalé dans l'Issue Tracker, accédez à la page d'assistance Google Maps Platform (dans Google Cloud Console) et créez une demande d'assistance.

Réponse initiale

Lorsque Google détecte un incident, l'équipe d'assistance engage la communication avec vous. La notification initiale d'un incident est souvent sommaire, ne mentionnant généralement que le produit concerné et les principaux problèmes constatés. Nous privilégions en effet la rapidité de la notification aux détails de l'incident. D'autres informations vous seront communiquées à mesure que nous en apprendrons davantage.

réponse

Canaux de communication pour les incidents

L'équipe d'assistance de Google Maps Platform propose plusieurs canaux de communication en cas d'incident pour fournir la quantité d'informations appropriée, en fonction de l'étendue et de la gravité du problème.

Lorsque vous découvrez un problème qui vous concerne, consultez en premier lieu le tableau de bord d'état public de Maps. Ce tableau de bord indique les incidents qui affectent de nombreux clients. Par conséquent, si un incident est répertorié, il est probablement lié à votre problème. Pour indiquer le niveau de gravité, le tableau de bord marque les incidents en tant que perturbation ou interruption. Certains problèmes sont mineurs et n'ont qu'un faible impact, mais ils sont largement répandus. Ils sont postés comme incidents à titre informatif.

Le groupe Google Maps Platform Notifications est un groupe Google public dans lequel tous les problèmes d'indisponibilité généralisée sont signalés, avec d'autres informations techniques concernant les API Google Maps Platform. Tous les membres du groupe reçoivent une notification par e-mail dès qu'une indisponibilité est détectée, puis des informations sur l'avancement du problème jusqu'à ce qu'il soit résolu.

La bannière d'assistance est un message d'information qui apparaît dans la section Assistance Maps de Cloud Console en cas d'incident en cours. La bannière identifie le produit concerné et inclut un lien vers l'Issue Tracker.

indisponibilité

L'Issue Tracker contient une liste de référence de tous les incidents connus. Vous pouvez consulter les incidents en cours, suivre leur progression en vous y abonnant, et ajouter des commentaires pour aider nos équipes à enquêter sur le problème. Vous trouverez également le lien vers l'Issue Tracker public dans la documentation d'assistance Google Maps Platform.

Des demandes d'assistance sont utilisées si le problème ne concerne que vos projets ou affecte un nombre limité de clients. Si aucun incident n'a été déclaré, mais que vous rencontrez un problème, accédez à la page d'assistance Google Maps Platform (dans Cloud Console) et créez une demande d'assistance.

Enquête

Les ingénieurs produit sont chargés d'enquêter sur l'origine des incidents. La gestion des incidents est souvent assurée par des ingénieurs en fiabilité des sites (SRE), mais elle peut être confiée à des ingénieurs logiciels ou à d'autres spécialistes, en fonction de la situation et du produit. Pour en savoir plus, consultez le chapitre 12 du manuel d'ingénierie en fiabilité des sites (SRE).

Atténuation/Résolution

Un problème n'est considéré comme résolu que lorsque des modifications ont été apportées et que Google a la certitude qu'elles vont le régler définitivement. Par exemple, un rollback peut être effectué pour annuler une modification ayant déclenché un incident.

Lorsqu'un incident est en cours, les équipes d'assistance et de produits tentent d'atténuer le problème. Atténuer un problème consiste à en réduire l'impact ou l'étendue, par exemple, en fournissant temporairement des ressources supplémentaires à un service présentant une surcharge.

Si aucune mesure d'atténuation n'a été trouvée, l'équipe d'assistance trouve des solutions de contournement, lorsque cela est possible, et les communique. Il s'agit d'étapes que vous pouvez suivre pour répondre à votre besoin en dépit de l'incident. Une solution de contournement peut par exemple consister à utiliser des paramètres différents pour un appel d'API afin d'éviter un chemin de code problématique.

Suivi

Lorsqu'un incident est en cours, l'équipe d'assistance transmet régulièrement des informations lesquelles fournissent généralement :

  • plus d'informations sur l'incident, par exemple, les messages d'erreur, les fonctionnalités affectées et la portée de cet incident ;
  • l'avancement du processus d'atténuation, y compris les solutions de contournement ;
  • le calendrier des communications, adapté à l'incident ;
  • les changements d'état, par exemple, lorsqu'un incident est résolu.

Analyse post-mortem

Tous les incidents entraînent une analyse interne post-mortem (post-incident) afin de comprendre pleinement l'incident et d'identifier les améliorations que Google peut apporter pour plus de fiabilité. Ces améliorations sont ensuite suivies et mises en place. Pour en savoir plus sur les analyses post-mortem effectuées par Google, consultez le chapitre 15 du manuel d'ingénierie en fiabilité des sites (SRE).

Rapport d'incident

Lorsque les incidents ont des conséquences importantes et très étendues, Google fournit des rapports d'incident décrivant les symptômes, l'impact, l'origine, les mesures correctives et les futures actions de prévention. Comme pour les analyses post-mortem, nous accordons une attention particulière aux mesures que nous prenons pour tirer les leçons du problème et améliorer la fiabilité. Chez Google, en rédigeant et en publiant des analyses post-mortem, nous faisons preuve de transparence et montrons que nous tenons à créer des services stables pour nos clients.

FAQ

Je souhaite être averti si un service est indisponible. Que dois-je faire ?

Rejoignez le groupe Google Maps Platform Notifications pour être informé des problèmes en cours et suivre l'avancement de l'incident en temps réel. Ce groupe vous permettra également de suivre les annonces concernant les produits et la plate-forme.

Quel type d'informations d'état puis-je trouver sur la page d'accueil du tableau de bord ?

Le tableau de bord d'état public de Google Maps fournit des informations sur les services inclus dans Google Maps Platform. Les indicateurs d'état peuvent prendre l'une des valeurs suivantes :

  • Interruption de service : un système de production ou un service est arrêté. Il n'existe pas de solution, ou la solution n'est pas facile à mettre en œuvre.
  • Service perturbé : un système de production ou un service est partiellement altéré et/ou ne fonctionne pas comme prévu. Une solution existe.
  • Incident mineur : problème à faible impact, mentionné à titre informatif. Le service est généralement toujours accessible.
  • Disponible : le service est entièrement opérationnel et fonctionne comme prévu.

Où puis-je trouver des informations sur les perturbations et interruptions de service antérieures ?

La page Historique du tableau de bord d'état public de Google Maps regroupe les perturbations et les interruptions survenues au cours des 365 derniers jours. Cliquez sur un incident pour afficher les posts concernant l'incident au moment où il s'est produit, ainsi que les rapports d'incident publiés par l'équipe d'assistance.

Qui met à jour le tableau de bord ?

L'équipe d'assistance mondiale de Google Maps Platform surveille l'état des services via différents types de signaux et met à jour le tableau de bord en cas de problème généralisé. Au besoin, elle publie également un rapport d'analyse détaillé une fois qu'un incident a été résolu.

Quelle est la différence entre un "incident" et une "indisponibilité" ?

Bien que ces termes soient souvent employés indifféremment, "incident" est utilisé dans le tableau de bord d'état public de Maps et dans nos communications externes pour désigner toute période de dégradation de service. Le terme "indisponibilité" n'est utilisé que pour les problèmes les plus sérieux, lorsqu'un service n'est pas opérationnel et se trouve de fait inutilisable par nos clients.