Gerenciamento de incidentes da Plataforma Google Maps

Ciclo de vida de um incidente

A Plataforma Google Maps segue o framework de gerenciamento de incidentes do Google Cloud Platform.

Quando ocorre uma falha temporária ou degradação do serviço, as equipes de engenharia de produto e de suporte da Plataforma Google Maps trabalham juntas para resolver o incidente e comunicá-lo a você.

ciclo de vida

Detecção

O Google usa monitoramento interno e de caixa preta para detectar incidentes e acionar alertas de investigação para nossos engenheiros. Para mais informações, consulte o capítulo 6 do manual de engenharia de confiabilidade do site.

Se você detectar um incidente que ainda não foi informado no Issue Tracker, acesse a página "Criar um caso" do suporte da Plataforma Google Maps (no console do Google Cloud) e crie um caso.

Resposta inicial

Quando o Google detecta um incidente, a equipe de suporte entra em contato com você. Em geral, a notificação inicial de um incidente é esparsa e, com frequência, apenas menciona o nome do produto em questão e os principais sintomas. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes, que serão fornecidos nas próximas atualizações, à medida que tivermos mais informações.

resposta

Canais de comunicação sobre incidentes

Para fornecer a quantidade apropriada de informações, a equipe de suporte da Plataforma Google Maps oferece diferentes canais de comunicação sobre incidentes, dependendo do escopo e da gravidade de um problema.

O painel de status público do Maps é o primeiro lugar a ser verificado ao descobrir que um problema está afetando você. Ele mostra incidentes que afetam muitos clientes. Portanto, se você observar um incidente listado, ele provavelmente vai estar relacionado ao seu problema. Para indicar a gravidade, o painel de status marca os incidentes como interrupção, falha temporária de serviço ou informações.

O grupo de notificações da Plataforma Google Maps é um grupo público do Google em que todas as falhas temporárias generalizadas são informadas, além de outras atualizações técnicas sobre as APIs da Plataforma Google Maps. Todos os membros do grupo vão receber uma notificação por e-mail quando uma falha temporária for detectada inicialmente, além de atualizações subsequentes até que o problema seja resolvido.

O card de status da Plataforma Google Maps é uma mensagem informativa que está sempre visível na seção Suporte do Google Maps do console do Cloud e mostra o status atual dos serviços e das APIs da plataforma. Quando há um incidente ativo, uma mensagem identifica o produto afetado e inclui um link para o Painel de status público do Maps, onde você encontra os incidentes ativos.

falha temporária

O Issue Tracker contém uma lista de referência com todos os incidentes conhecidos. É possível consultar os incidentes abertos, seguir a conversa para acompanhar o progresso deles, além de adicionar comentários para ajudar a investigação das nossas equipes. O link para o Issue Tracker também está na documentação de suporte da Plataforma Google Maps.

Os casos de suporte são usados quando o problema é específico dos seus projetos ou afeta um número limitado de clientes. Se nenhum incidente foi informado, mas você ainda está com problemas, acesse a página "Criar um caso" do suporte da Plataforma Google Maps (no console do Cloud) e crie um caso.

Investigação

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

O Google só considera um problema corrigido quando tem certeza de que as mudanças feitas o eliminaram. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Durante um incidente, as equipes de suporte e produto tentarão mitigar o problema. A mitigação ocorrerá quando o impacto ou o escopo de um problema for reduzido, por exemplo, ao fornecer temporariamente mais recursos a um serviço com sobrecarga.

Se nenhuma mitigação for possível, a equipe de suporte tentará encontrar e informar soluções alternativas. Elas são as etapas que você executa para solucionar o problema, apesar do incidente. Um exemplo de solução alternativa é usar configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhamento

Enquanto um incidente está em andamento, a equipe de suporte fornece atualizações regulares. Normalmente, elas contêm os seguintes detalhes:

  • Informações sobre o incidente, como mensagens de erro, quais recursos foram afetados e o grau de difusão
  • O progresso da mitigação, incluindo quaisquer soluções temporárias
  • Cronogramas de comunicação adaptados ao incidente
  • Alterações no status, por exemplo, quando um incidente é corrigido

Post mortem

Todos os incidentes resultam em uma análise interna post mortem (após o ocorrido) para entender completamente o incidente e identificar quais melhorias de confiabilidade o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre post mortems no Google, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura desses incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e divulgar análises posteriores é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.

Perguntas frequentes

Quero receber uma notificação no caso de uma falha temporária. O que devo fazer?

  • Participe do grupo de notificações da Plataforma Google Maps para receber avisos sobre problemas atuais e acompanhar o andamento de incidentes em tempo real. Com esse grupo, você também ficará por dentro das novidades sobre produtos e a plataforma.
  • Use os links Feed RSS ou Histórico JSON na parte de baixo do Painel de status público do Maps para acessar um feed dos incidentes atuais e anteriores. Cada postagem no painel acionará uma postagem no feed. Para você ficar por dentro de tudo, cada postagem no feed incluirá todas as mensagens e atualizações relacionadas ao evento correspondente do painel. Assim, você não precisa analisar o histórico de feeds para entender o que mudou. Os feeds RSS são publicados em formato XML. Extensões de navegador, como a Extensão de assinatura RSS (do Google), permitem visualizar o conteúdo do feed e fazer a inscrição usando seu leitor de RSS favorito. O histórico JSON é um feed da Web JSON de incidentes anteriores. Várias bibliotecas de software e frameworks da Web são compatíveis com a distribuição de conteúdo usando o feed JSON.

Que tipo de informação de status posso encontrar na página inicial do painel?

O Painel de status público do Google Maps fornece informações sobre APIs e serviços que fazem parte da Plataforma Google Maps. Se houver um incidente ativo, uma informação será postada aqui para cada API e serviço específico na Plataforma Google Maps. Os indicadores de status são sempre mostrados, representando a integridade geral de cada API e serviço, com base em uma das seguintes opções:

  • Falha temporária do serviço: um sistema ou serviço de produção está inativo. Não há uma solução alternativa disponível ou ela não pode ser facilmente implementada.
  • Interrupção de serviço: um serviço ou sistema de produção foi parcialmente afetado e/ou não está funcionando conforme o esperado. Existe uma solução alternativa.
  • Informações de serviço: um serviço ou sistema de produção foi parcialmente afetado e/ou não está funcionando conforme o esperado. Geralmente, o serviço ainda está disponível e o impacto é pequeno, afetando poucos usuários.
  • Disponível: o serviço está funcionando normalmente, conforme o esperado.

O painel é em tempo real?

O Painel de status público do Maps fornece um status quase em tempo real dos produtos que têm disponibilidade geral e são cobertos pelo SLA da Plataforma Google Maps. Todos os incidentes são verificados antes de serem publicados. Assim, pode haver um pequeno atraso a partir do momento em que eles foram detectados. Portanto, o painel não pode ser usado para fins de rastreamento do tempo de atividade.

Posso usar o painel para monitorar o tempo de atividade da Plataforma Google Maps?

O Painel de status público do Maps não foi feito para monitorar o status dos serviços da GMP com base no SLA da GMP, já que as durações de falhas temporárias mostradas no painel não necessariamente refletem a "Inatividade" real (conforme definido no SLA) do seu projeto, especialmente para incidentes de menor gravidade. Além disso, as durações mostradas podem incluir mais tempo após a redução do problema para confirmar totalmente a correção.

Para monitorar o uso da API, criar painéis e elaborar alertas, acesse o Monitoramento da Plataforma Google Maps.

E se o painel não mostrar um incidente?

Nem todos os clientes e projetos são afetados por todos os incidentes. Somente incidentes amplos e graves aparecem no painel. Se você tem um problema que não está listado no painel, entre em contato com o suporte.

Onde encontro informações sobre interrupções e falhas temporárias de serviço anteriores?

A página Histórico no Painel de status público do Maps é um repositório de dados sobre interrupções e falhas temporárias dos últimos 365 dias. Clique em um incidente para ver as postagens da época em que ocorreu, bem como todos os relatórios sobre ele publicados pela equipe de suporte.

Quem atualiza o painel?

A equipe de suporte global da Plataforma Google Maps monitora o status dos serviços usando vários tipos de sinais e atualiza o painel em caso de um problema generalizado. Se necessário, ela também posta um relatório de análise detalhado após a resolução de um incidente.

Qual é a diferença entre um "incidente" e uma "falha temporária"?

Embora esses termos sejam frequentemente usados como sinônimos, o painel de status público do Maps e nossas comunicações externas usam "incidente" para se referir a qualquer período em que um serviço apresentou capacidade reduzida e "interrupção" para se referir apenas aos casos mais graves, em que um serviço para de funcionar, tornando inútil a experiência dos clientes.