Gerenciamento de incidentes da Plataforma Google Maps

Ciclo de vida de um incidente

A Plataforma Google Maps segue o framework de gerenciamento de incidentes do Google Cloud Platform.

Quando ocorre uma falha temporária ou degradação do serviço, as equipes de engenharia de produto e de suporte da Plataforma Google Maps trabalham juntas para resolver o incidente e comunicá-lo a você.

ciclo de vida

Detecção

O Google usa monitoramento interno e de caixa preta para detectar incidentes e acionar alertas de investigação para nossos engenheiros. Se quiser mais informações, consulte o capítulo 6 do manual "Engenharia de confiabilidade do site".

Se você detectar um incidente que ainda não foi informado no Issue Tracker, acesse a página de suporte da Plataforma Google Maps (no Console do Google Cloud) e crie uma nova consulta ao suporte.

Resposta inicial

Quando o Google detecta um incidente, a equipe de suporte entra em contato com você. Em geral, a notificação inicial de um incidente é esparsa e, com frequência, apenas menciona o nome do produto em questão e os principais sintomas. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes, que serão fornecidos nas próximas atualizações, à medida que tivermos mais informações.

resposta

Canais de comunicação sobre incidentes

Para fornecer a quantidade apropriada de informações, a equipe de suporte da Plataforma Google Maps oferece diferentes canais de comunicação sobre incidentes, dependendo do escopo e da gravidade de um problema.

O painel de status público do Maps é o primeiro lugar a ser verificado ao descobrir que um problema está afetando você. Ele mostra incidentes que afetam muitos clientes. Portanto, se você observar um incidente listado, ele provavelmente está relacionado ao seu problema. Para indicar a gravidade, o painel de status marca os incidentes como interrupção ou falha temporária. Alguns problemas são menores e menos impactantes, mas ainda afetam muitos usuários. Eles são postados como incidentes informativos.

O grupo de notificações da Plataforma Google Maps é um grupo público do Google onde todas as falhas temporárias generalizadas são informadas, além de outras atualizações técnicas sobre as APIs da Plataforma Google Maps. Todos os membros do grupo receberão uma notificação por e-mail quando uma falha temporária for detectada inicialmente, além de atualizações subsequentes até que o problema seja resolvido.

O banner de suporte é uma mensagem informativa que aparece na seção Suporte do Google Maps do Console do Cloud quando há um incidente ativo. Ele identifica o produto afetado e inclui um link para o Issue Tracker.

falha temporária

O Issue Tracker contém uma lista de referência com todos os incidentes conhecidos. É possível ver os incidentes abertos, acompanhar o progresso deles e se inscrever na conversa relacionada, além de adicionar comentários para ajudar nossas equipes a investigar a situação. Você encontra o link para o Issue Tracker público na documentação de suporte da Plataforma Google Maps.

Os casos de suporte são usados se o problema for específico dos seus projetos ou afetar um número limitado de clientes. Se nenhum incidente foi informado, mas você ainda está enfrentando um problema, acesse a página de suporte da Plataforma Google Maps (no Console do Cloud) e crie um novo caso de suporte.

Investigação

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

O Google só considera um problema corrigido quando tem certeza de que as mudanças feitas o eliminaram. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Durante um incidente, as equipes de suporte e produto tentarão mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de um problema for reduzido, por exemplo, ao fornecer temporariamente mais recursos a um serviço com sobrecarga.

Se nenhuma mitigação for possível, a equipe de suporte tentará encontrar e informar soluções alternativas. Elas são as etapas que você executa para solucionar o problema, apesar do incidente. Um exemplo de solução alternativa é usar configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhamento

Enquanto um incidente está em andamento, a equipe de suporte fornece atualizações regulares. Normalmente, elas contêm os seguintes detalhes:

  • Informações sobre o incidente, como mensagens de erro, quais recursos foram afetados e o grau de difusão
  • O progresso da mitigação, incluindo quaisquer soluções alternativas
  • Cronogramas de comunicação adaptados ao incidente
  • Alterações no status, por exemplo, quando um incidente é corrigido

Post mortem

Todos os incidentes resultam em uma análise interna post mortem (após o ocorrido) para entender completamente o incidente e identificar quais melhorias de confiabilidade o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre post mortems no Google, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura desses incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e liberar post mortems é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.

Perguntas frequentes

Quero receber uma notificação no caso de uma falha temporária. O que devo fazer?

  • Participe do grupo de notificações da Plataforma Google Maps para receber avisos sobre problemas atuais e acompanhar o andamento de incidentes em tempo real. Com esse grupo, você também ficará por dentro das novidades sobre produtos e a plataforma.
  • Use os links Feed RSS ou Histórico JSON na parte inferior do Painel de status público do Maps para ver um feed dos incidentes atuais e anteriores. Cada postagem no painel acionará uma postagem no feed. Para você ficar por dentro de tudo, cada postagem no feed incluirá todas as mensagens e atualizações relacionadas ao evento correspondente do painel. Assim, você não precisa analisar o histórico de feeds para entender o que mudou. Os feeds RSS são publicados em formato XML. Extensões de navegador, como a Extensão de assinatura RSS (do Google), permitem visualizar o conteúdo do feed e se inscrever usando seu leitor de RSS favorito. O histórico JSON é um feed da Web JSON de incidentes anteriores. Várias bibliotecas de software e frameworks da Web são compatíveis com a distribuição de conteúdo usando o feed JSON.

Que tipo de informação de status posso encontrar na página inicial do painel?

O painel de status público do Google Maps fornece informações de status sobre serviços que fazem parte da Plataforma Google Maps. Estes são os indicadores de status:

  • Falha temporária do serviço: um sistema ou serviço de produção está inativo. Não há uma solução alternativa disponível ou ela não pode ser facilmente implementada.
  • Interrupção de serviço: um serviço ou sistema de produção foi parcialmente afetado e/ou não está funcionando como esperado. Existe uma solução alternativa.
  • Incidente menor: problema de baixo impacto reportado para fins informativos. O serviço ainda está disponível de modo geral.
  • Disponível: o serviço está totalmente funcional, atuando conforme o esperado.

Onde encontro informações sobre interrupções e falhas temporárias de serviço anteriores?

A página Histórico no painel de status público do Maps é um repositório de dados sobre interrupções e falhas temporárias dos últimos 365 dias. Clique em um incidente para ver as postagens da época em que ocorreu, bem como todos os relatórios sobre ele publicados pela equipe de suporte.

Quem atualiza o painel?

A equipe de suporte global da Plataforma Google Maps monitora o status dos serviços usando vários tipos de sinais e atualiza o painel em caso de um problema generalizado. Se necessário, ela também posta um relatório de análise detalhado após a resolução de um incidente.

Qual é a diferença entre um "incidente" e uma "falha temporária"?

Embora esses termos sejam frequentemente usados como sinônimos, o painel de status público do Maps e nossas comunicações externas usam "incidente" para se referir a qualquer período em que um serviço apresentou capacidade reduzida e "interrupção" para se referir apenas aos casos mais graves, em que um serviço para de funcionar, tornando inútil a experiência dos clientes.