Administración de incidentes de Google Maps Platform

Ciclo de vida de un incidente

Google Maps Platform cumple con el framework de administración de incidentes de Google Cloud Platform.

Cuando se produce una interrupción o una degradación del servicio, el equipo de Ingeniería de Productos y el equipo de Asistencia de Google Maps Platform trabajan en conjunto para resolver el incidente y comunicártelo.

lifecycle

Detección

Google utiliza la supervisión interna y de caja negra para detectar incidentes y activar alertas a fin de que nuestros ingenieros los investiguen. Para obtener más información, consulta el Capítulo 6 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Si detectas un incidente que aún no se informó en la Herramienta de seguimiento de errores, ve a la página Asistencia de Google Maps Platform (en Google Cloud Console) y crea un nuevo caso de ayuda.

Respuesta inicial

Cuando Google detecta un incidente, el equipo de asistencia al cliente se comunica contigo. La notificación inicial de un incidente suele ser poco detallada y generalmente solo menciona el producto en cuestión junto con síntomas clave. Esto se debe a que priorizamos brindar una notificación rápida antes que especificar los detalles. A medida que obtengamos más información, se proporcionarán detalles adicionales en las actualizaciones posteriores.

respuesta

Canales de comunicación para incidentes

Para proporcionar la cantidad adecuada de información, el equipo de asistencia al cliente de Google Maps Platform ofrece diferentes canales de comunicación para incidentes, según el alcance y la gravedad de un problema:

El Panel de estado público de Maps es el primer lugar que debes verificar cuando descubres que un problema te está afectando. El panel muestra incidentes que afectan a muchos clientes, por lo que, si ves un incidente en la lista, es probable que esté relacionado con tu problema. Para indicar la gravedad, el panel de estado marca los incidentes como suspensión temporal del servicio, interrupción o información.

El grupo de notificaciones de Google Maps Platform es un grupo público de Google en el que se informan todas las interrupciones generalizadas, además de otras actualizaciones técnicas sobre las API de Google Maps Platform. Todos los miembros del grupo recibirán una notificación por correo electrónico cuando se detecte una interrupción y obtendrán actualizaciones posteriores hasta que se resuelva el problema.

La tarjeta de estado de Maps Platform es un mensaje informativo que siempre está visible en la sección Asistencia de Maps de Cloud Console y que muestra el estado actual de las API y los servicios de Maps Platform. Cuando haya un incidente activo, se mostrará un mensaje que identifica el producto afectado y, además, incluirá un vínculo al Panel de estado público de Maps en el que podrás ver los incidentes activos.

suspensión temporal

La Herramienta de seguimiento de errores contiene una lista de referencia de todos los incidentes conocidos. Puedes ver los incidentes abiertos, suscribirte a ellos para seguir su progreso y agregar comentarios para ayudar con la investigación que realizan nuestros equipos. También puedes encontrar el vínculo a la Herramienta de seguimiento de errores en la documentación de asistencia de Google Maps Platform.

Los casos de asistencia se usan si el problema podría afectar solo a tus proyectos o a una cantidad limitada de clientes. Si no se declaró ningún incidente, pero aún experimentas un problema, ve a la página Asistencia de Google Maps Platform (en Cloud Console) y crea un caso de asistencia nuevo.

Investigación

Los equipos de Ingeniería de Productos son responsables de investigar la causa raíz de los incidentes. La administración de incidentes suele ser responsabilidad de los ingenieros de confiabilidad de sitios, aunque también es posible que se encarguen de esta tarea los ingenieros de software o de otro tipo, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Mitigación/corrección

Google considera que un problema está corregido solo cuando tiene la certeza de que los cambios introducidos acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir el cambio que provocó un incidente.

Mientras se está trabajando en resolver un incidente, los equipos de asistencia y de productos intentarán mitigar el problema. Mitigar un problema es reducir su impacto o su alcance, por ejemplo, si se proporcionan temporalmente recursos adicionales a un servicio que sufre una sobrecarga.

Si no se encuentra una forma de mitigar el problema, el equipo de Asistencia buscará y comunicará soluciones alternativas siempre que sea posible. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.

Seguimiento

Mientras un incidente está en curso, el equipo de Asistencia proporciona actualizaciones periódicas. Por lo general, las actualizaciones brindan la siguiente información:

  • Más detalles sobre el incidente, como los mensajes de error, qué características o funciones están afectadas y cuál es su alcance
  • El avance que se está haciendo para lograr la mitigación, incluidas las soluciones alternativas
  • Los cronogramas de comunicación, adaptados al incidente
  • Los cambios de estado, como cuando un incidente se considera corregido

Análisis de resultados

Se realiza un análisis interno de todos los incidentes (después de finalizados) para comprenderlos por completo y detectar las mejoras de confiabilidad que Google puede hacer. Luego, se hace un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los análisis de resultados en Google, consulta el Capítulo 15 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Informe del incidente

Cuando un incidente tiene un impacto muy amplio y grave, Google proporciona un informe del incidente en el cual se describen los síntomas, el impacto, la causa raíz, la solución y la prevención futura de incidentes. Tal como ocurre con los análisis de resultados, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo que tenemos en Google cuando escribimos y publicamos análisis de resultados es ser transparentes y demostrar nuestro compromiso con la creación de servicios estables para nuestros clientes.

Preguntas frecuentes

Quiero recibir una notificación cuando haya una interrupción en curso. ¿Qué debo hacer?

  • Únete al grupo de notificaciones de Google Maps Platform para estar informado sobre los problemas en curso y seguir el progreso del incidente en tiempo real. Este grupo también te ayudará a estar al tanto de los anuncios sobre los diferentes productos y plataformas.
  • Usa los vínculos del feed RSS o del historial de JSON en la parte inferior del Panel de estado público de Maps para ver un feed de los incidentes actuales y pasados. Cada publicación del panel activará una publicación en el feed. Para mantenerte informado, cada publicación del feed incluirá todos los mensajes y las actualizaciones correspondientes al evento del panel correspondiente. De esa manera, no tendrás que buscar en el historial de tu feed para conocer el estado de la situación. Los feeds RSS se publican en formato XML. Las extensiones del navegador, como la Extensión de la suscripción RSS (de Google), te permiten obtener una vista previa del contenido del feed y suscribirte a través de tu lector de RSS favorito. El historial de JSON es un feed web en formato JSON sobre incidentes pasados. Una variedad de bibliotecas de software y frameworks web admiten la distribución de contenido a través del feed JSON.

¿Qué tipo de información de estado puedo encontrar en la página principal del panel?

El Panel de estado público de Google Maps proporciona información sobre las API y los servicios que forman parte de Google Maps Platform. Si hay un incidente activo, se publicará la información aquí para cada API y servicio específicos dentro de Google Maps Platform. Siempre se muestran los indicadores de estado, que representan el estado general de cada API y servicio, a partir de una de las siguientes opciones:

  • Suspensión temporal del servicio: Un sistema o servicio de producción no funciona. No hay disponible una solución alternativa, o bien no se implementa con facilidad.
  • Interrupción del servicio: Un sistema o servicio de producción está afectado parcialmente o no funciona como se espera. Existe una solución alternativa.
  • Información sobre el servicio: Un sistema o servicio de producción está afectado parcialmente o no funciona como se espera. En general, el servicio sigue estando disponible, el impacto es menor y afecta a una pequeña cantidad de usuarios.
  • Disponible: El servicio funciona completamente y tal como se espera.

¿El panel se muestra en tiempo real?

El Panel de estado público de Maps tiene como objetivo proporcionar un estado casi en tiempo real de los productos que suelen estar disponibles y cubiertos por el ANS de Google Maps Platform. Todos los incidentes se verifican antes de su publicación, por lo que puede haber un ligero retraso desde el momento en que se los detectó por primera vez. Por lo tanto, el panel no debe usarse para hacer un seguimiento del tiempo de actividad.

¿Qué sucede si no veo un incidente en el panel?

No todos los clientes se ven afectados por cada incidente. Solo los incidentes amplios y graves se reflejan en el panel. Si encuentras un problema que no aparece en el panel, comunícate con el equipo de asistencia.

¿Dónde puedo encontrar información sobre interrupciones y suspensiones del servicio anteriores?

La página Historial en el Panel de estado público de Maps es un repositorio de las interrupciones y alteraciones de los últimos 365 días. Haz clic en un incidente para revisar las publicaciones relacionadas que se hicieron mientras estaba en curso, así como los informes de incidente que publicó el equipo de asistencia al cliente.

¿Quién actualiza el panel?

El equipo global de asistencia al cliente de Google Maps Platform supervisa el estado de los servicios mediante diferentes tipos de indicadores y actualiza el panel en caso de que haya un problema generalizado. Si es necesario, también publicará un informe de análisis detallado una vez que se haya resuelto un incidente.

¿Cuál es la diferencia entre un "incidente" y una "interrupción"?

Aunque estos términos suelen utilizarse indistintamente, el panel de estado público de Maps y nuestras comunicaciones externas utilizan "incidente" para referirse a cualquier período de servicio degradado y emplean "interrupción" para hacer referencia solo a los problemas más graves, en los que un servicio no funciona hasta el punto en que la experiencia de nuestros clientes se vuelve prácticamente inútil.