Gerenciamento de incidentes da Plataforma Google Maps

Canais de comunicação sobre incidentes

A equipe de suporte da Plataforma Google Maps oferece diferentes canais de comunicação sobre incidentes.

A lista de incidentes e falhas temporárias da Plataforma Google Maps no Issue Tracker mostra todos os incidentes conhecidos. Você pode ver facilmente os incidentes, seguir o progresso deles e adicionar comentários para ajudar nossas equipes a investigar o problema ao se inscrever na conversa relacionada ao erro.

O grupo de notificações da Plataforma Google Maps é a primeira fonte para identificar falhas temporárias generalizadas. Todos os clientes que participarem do grupo receberão uma notificação por e-mail quando uma falha temporária for detectada e todas as atualizações até a resolução do problema.

Quando um problema é detectado e informado no Issue Tracker, um banner também é exibido na página de suporte da Plataforma Google Maps (no Console do Cloud). O banner identifica o produto afetado e inclui um link para o Issue Tracker.

Ciclo de vida de um incidente

A Plataforma Google Maps obedece ao framework de gerenciamento de incidentes do Google Cloud Platform.

Quando ocorre uma falha temporária ou degradação do serviço, as equipes de engenharia de produto e de suporte da Plataforma Google Maps trabalham juntas para resolver o incidente e comunicá-lo a você.

ciclo de vida

Detecção

O Google usa monitoramento interno e de caixa preta para detectar incidentes. Para mais informações, consulte o capítulo 6 do manual Engenharia de confiabilidade do site.

Se você detectar um incidente que ainda não foi informado no Issue Tracker, acesse a página de suporte da Plataforma Google Maps (no Console do Cloud) e crie uma nova consulta ao suporte.

Resposta inicial

Quando um incidente é detectado, a equipe de suporte entra em contato com você. Em geral, a notificação inicial de um incidente é esparsa e, com frequência, apenas menciona o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes, que serão fornecidos nas próximas atualizações.

Para fornecer a quantidade apropriada de informações, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema.

resposta

Investigação

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

O Google só considera um problema corrigido quando tem certeza de que as mudanças feitas o eliminaram. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Durante um incidente, as equipes de suporte e produto tentarão mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de um problema for reduzido, por exemplo, ao fornecer temporariamente mais recursos a um serviço com sobrecarga.

Se nenhuma mitigação for possível, a equipe de suporte tentará encontrar e informar soluções alternativas. Elas são as etapas que você executa para solucionar o problema, apesar do incidente. Um exemplo de solução alternativa é usar configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhamento

Enquanto um incidente está em andamento, a equipe de suporte fornece atualizações regulares. Normalmente, elas contêm os seguintes detalhes:

  • Informações sobre o incidente, como mensagens de erro, quais recursos foram afetados e o grau de difusão
  • O progresso da mitigação, incluindo quaisquer soluções alternativas
  • Cronogramas de comunicação adaptados ao incidente
  • Alterações no status, por exemplo, quando um incidente é corrigido

Post mortem

Todos os incidentes resultam em uma análise interna de post mortem para entender completamente o incidente e identificar quais melhorias de confiabilidade o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre post mortems no Google, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura desses incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e liberar post mortems é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.

Perguntas frequentes

Quero receber uma notificação no caso de uma falha temporária. O que devo fazer?

Participe do grupo de notificações da Plataforma Google Maps para receber avisos sobre problemas atuais e acompanhar o andamento de incidentes em tempo real. Com esse grupo, você também ficará por dentro das novidades sobre produtos e a plataforma.

Onde posso verificar se uma falha temporária foi registrada?

A equipe da Plataforma Google Maps oferece vários recursos para você receber informações sobre uma falha temporária. Escolha aquele que funciona melhor para você.

  • Incidentes no Issue Tracker: lista de referência de todos os incidentes conhecidos. É possível ver os incidentes em andamento, acompanhar o progresso e se inscrever nas conversas, além de adicionar comentários para ajudar nossas equipes a investigar a situação. Você encontra o link para o Issue Tracker público na documentação de suporte da Plataforma Google Maps.
  • Grupo de notificações da Plataforma Google Maps: grupo do Google em que todas as falhas temporárias generalizadas são informadas. Todos os clientes que participarem do grupo receberão uma notificação por e-mail quando uma interrupção for detectada e atualizações até a resolução do problema.
  • Página de suporte da Plataforma Google Maps (no Console do Cloud): quando um problema é detectado e informado no Issue Tracker, a página de suporte exibe um banner ativo com um aviso sobre o problema e um link para o Issue Tracker.

    falha temporária

E se eu tiver um problema, mas ele não estiver listado no grupo de notificações nem no Issue Tracker?

O problema pode estar acontecendo só nos seus projetos ou estar afetando alguns poucos clientes. Se nenhum incidente for informado, acesse a página de suporte da Plataforma Google Maps (no Console do Cloud) e crie uma nova consulta ao suporte.

Qual é a diferença entre um "incidente" e uma "falha temporária"?

Embora esses termos sejam frequentemente usados como sinônimos, nossas comunicações externas usam "incidente" para se referir a qualquer período de serviço com capacidade reduzida e "falha temporária", aos problemas mais graves em que um produto não funciona em grande escala.