Administración de incidentes de Google Maps Platform

Canales de comunicación para incidentes

El equipo de Asistencia de Google Maps Platform ofrece diferentes canales para la comunicación de incidentes.

La lista de la Herramienta de seguimiento de errores para las interrupciones y los incidentes de Google Maps Platform contiene una lista de todos los incidentes conocidos. Puedes suscribirte al problema a fin de ver fácilmente los incidentes en curso, seguir su progreso y agregar comentarios para ayudar a nuestros equipos a investigar.

El grupo de notificaciones de Google Maps Platform es el primer lugar en el que se informan las interrupciones generalizadas. Todos los clientes que se hayan unido al grupo recibirán una notificación por correo electrónico cuando se detecte una interrupción y recibirán todas las actualizaciones posteriores hasta que se resuelva el problema.

Cuando se detecta y se informa un problema en la Herramienta de seguimiento de errores, también se muestra un banner en la página Asistencia de Google Maps Platform (en Cloud Console). El banner identifica el producto afectado e incluye un vínculo a la Herramienta de seguimiento de errores.

Ciclo de vida de un incidente

Google Maps Platform cumple con el framework de administración de incidentes de Google Cloud Platform.

Cuando se produce una interrupción o una degradación del servicio, el equipo de Ingeniería de Productos y el equipo de Asistencia de Google Maps Platform trabajan en conjunto para resolver el incidente y comunicártelo.

lifecycle

Detección

Google utiliza supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Si detectas un incidente que aún no se informó en la Herramienta de seguimiento de errores, ve a la página Asistencia de Google Maps Platform (en Cloud Console) y crea un nuevo caso de ayuda.

Respuesta inicial

Cuando se detecta un incidente, el equipo de Asistencia se comunica contigo. La notificación inicial de un incidente suele ser poco detallada y generalmente solo menciona el producto en cuestión. Esto se debe a que priorizamos brindar una notificación rápida antes que especificar los detalles. Se proporcionarán detalles en las actualizaciones posteriores.

Para proporcionar la cantidad adecuada de información, se usan diferentes canales de comunicación, según el alcance y la gravedad de un problema.

response

Investigación

Los equipos de Ingeniería de Productos son responsables de investigar la causa raíz de los incidentes. La administración de incidentes suele ser responsabilidad de los ingenieros de confiabilidad de sitios, aunque también es posible que se encarguen de esta tarea los ingenieros de software o de otro tipo, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Mitigación/corrección

Google considera que un problema está corregido solo cuando tiene la certeza de que los cambios introducidos acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir el cambio que provocó un incidente.

Mientras se está trabajando en resolver un incidente, los equipos de asistencia y de productos intentarán mitigar el problema. Mitigar un problema es reducir su impacto o su alcance, por ejemplo, si se proporcionan temporalmente recursos adicionales a un servicio que sufre una sobrecarga.

Si no se encuentra una forma de mitigar el problema, el equipo de Asistencia buscará y comunicará soluciones alternativas siempre que sea posible. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.

Seguimiento

Mientras un incidente está en curso, el equipo de Asistencia proporciona actualizaciones periódicas. Por lo general, las actualizaciones brindan la siguiente información:

  • Más detalles sobre el incidente, como los mensajes de error, qué características o funciones están afectadas y cuál es su alcance
  • El avance que se está haciendo para lograr la mitigación, incluidas las soluciones alternativas
  • Los cronogramas de comunicación, adaptados al incidente
  • Los cambios de estado, como cuando un incidente se considera corregido

Análisis de resultados

Se realiza un análisis interno de los resultados (después de finalizado el incidente) para tener un mejor entendimiento del incidente y detectar las mejoras de confiabilidad que Google puede hacer. Luego, se hace un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los análisis de resultados en Google, consulta el Capítulo 15 del libro Site Reliability Engineering (Ingeniería de confiabilidad de sitios).

Informe del incidente

Cuando un incidente tiene un impacto muy amplio y grave, Google proporciona un informe del incidente en el cual se describen los síntomas, el impacto, la causa raíz, la solución y la prevención futura de incidentes. Tal como ocurre con los análisis de resultados, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo que tenemos en Google cuando escribimos y publicamos análisis de resultados es ser transparentes y demostrar nuestro compromiso con la creación de servicios estables para nuestros clientes.

Preguntas frecuentes

Quiero recibir una notificación cuando haya una interrupción en curso. ¿Qué debo hacer?

Únete al grupo de notificaciones de Google Maps Platform para estar informado sobre los problemas continuos y seguir el progreso del incidente en tiempo real. Este grupo también te ayudará a estar al tanto de los anuncios sobre los diferentes productos y plataformas.

¿Dónde puedo comprobar si se informó una interrupción?

El equipo de Google Maps Platform ofrece varios recursos que te ayudarán a estar informado cuando haya una interrupción en curso. Elige la que mejor se adapte a tus necesidades.

  • Incidentes en la Herramienta de seguimiento de errores: Es una lista de referencia de todos los incidentes conocidos. Puedes ver fácilmente los incidentes en curso, suscribirte a ellos para seguir su progreso y agregar comentarios para ayudar con la investigación que realizan nuestros equipos. Puedes encontrar el vínculo a la Herramienta de seguimiento de errores pública en la documentación de asistencia de Google Maps Platform.
  • Grupo de notificaciones de Google Maps Platform: Es un grupo de Google en el que se informan todas las interrupciones generalizadas. Todos los clientes que se hayan unido al grupo recibirán una notificación por correo electrónico cuando se detecte una interrupción y las actualizaciones posteriores hasta que se resuelva el problema.
  • Página Asistencia de Google Maps Platform (en Cloud Console): Cuando se detecta un problema y se informa en la Herramienta de seguimiento de errores, la página de asistencia mostrará un banner activo con una notificación sobre el problema y un vínculo a la Herramienta de seguimiento de errores.

    outage

¿Qué sucede si tengo un problema, pero no aparece en el grupo de notificaciones ni en la Herramienta de seguimiento de errores?

Es posible que el problema solo esté afectando a tus proyectos o que esté afectando a una cantidad limitada de clientes. Si no se anunció ningún incidente, ve a la página Asistencia de Google Maps Platform (en Cloud Console) y crea un caso de ayuda nuevo.

¿Cuál es la diferencia entre un "incidente" y una "interrupción"?

Aunque estos términos a menudo se usan de forma indistinta, nuestras comunicaciones externas utilizan "incidente" para referirse a cualquier período de servicio degradado y emplean "interrupción" para hacer referencia solo a los problemas más graves, en los que gran parte del funcionamiento de un producto se ve afectado.