Zarządzanie incydentami w Google Maps Platform

Cykl życia incydentu

Google Maps Platform jest zgodny z zasadami zarządzania incydentami w Google Cloud Platform.

W przypadku przerwy w działaniu usługi lub jej pogorszenia zespół inżynierów i zespół pomocy Google Maps Platform pracują nad rozwiązaniem problemu i poinformowanie Cię o nim.

lifecycle

Wykrywanie

Google używa monitorowania wewnętrznego i czarnej skrzynki odbiorczej, aby wykrywać incydenty i wysyłać alerty do naszych inżynierów w celu zbadania sprawy. Więcej informacji znajdziesz w rozdziale 6 książki Site Reliability Engineering.

Jeśli zauważysz incydent, który nie został jeszcze zgłoszony w narzędziu do śledzenia problemów, otwórz stronę tworzenia zgłoszenia do zespołu pomocy Google Maps Platform (w konsoli Google Cloud) i utwórz nowe zgłoszenie do zespołu pomocy.

Pierwsza odpowiedź

Gdy Google wykryje incydent, zespół pomocy skontaktuje się z Tobą. Wstępne powiadomienie o incydencie jest często rzadkie i często zawiera jedynie wzmianki o danej usłudze wraz z kluczowymi objawami. Dzieje się tak, ponieważ priorytetowe są szybkie powiadomienia. W kolejnych aktualizacjach przekażemy więcej szczegółów na ten temat.

odpowiedź

Kanały komunikacji w przypadku incydentów

Aby dostarczyć odpowiednią ilość informacji, zespół pomocy Google Maps Platform udostępnia różne kanały komunikacji w przypadku incydentów, w zależności od zakresu i wagi problemu:

Panel stanu publicznego Map Google to pierwsze miejsce, w którym możesz sprawdzić, czy wystąpił jakiś problem. Panel pokazuje incydenty, które mogą dotyczyć wielu klientów. Jeśli więc widzisz incydenty, które mogą być związane z Twoim problemem. Aby określić wagę, panel stanu oznacza incydenty jako przerwy w działaniu usługi, zakłócenia w działaniu usługi lub informacje.

Grupa powiadomień Google Maps Platform to publiczna grupa dyskusyjna Google, w której zgłaszane są wszystkie powszechne przerwy w działaniu usługi, a także aktualizacje techniczne dotyczące interfejsów API Google Maps Platform. Wszyscy członkowie grupy otrzymają e-maila z powiadomieniem o pierwszym wykryciu przerwy w działaniu usługi w ramach kolejnych aktualizacji, dopóki problem nie zostanie rozwiązany.

Karta stanu Maps Platform to wiadomość informacyjna, która zawsze jest widoczna w sekcji Pomoc dotycząca Map w konsoli Cloud. Zawiera ona bieżący stan interfejsów API i usług Maps Platform. W przypadku aktywnego incydentu pojawi się komunikat identyfikujący usługę, której dotyczy problem, oraz link do publicznego panelu stanu Map Google, w którym możesz zobaczyć aktywne incydenty.

przerwa w działaniu usługi

Narzędzie do śledzenia problemów zawiera listę referencyjną wszystkich znanych incydentów. Możesz wyświetlać otwarte incydenty, subskrybować je, śledzić ich postęp i dodawać komentarze, które pomogą naszym zespołom w zbadaniu sprawy. Link do narzędzia do śledzenia problemów znajdziesz też w dokumentacji pomocy Google Maps Platform.

Zgłoszenia do zespołu pomocy są używane, jeśli problem występuje tylko w Twoich projektach lub dotyczy ograniczonej liczby klientów. Jeśli nie zadeklarowano żadnego incydentu, ale nadal występuje problem, wejdź na stronę tworzenia zgłoszenia przez zespół pomocy Google Maps Platform (w konsoli Cloud) i utwórz nowe zgłoszenie do zespołu pomocy.

Dochodzenie

Zespoły inżynierów zajmujących się usługami zajmują się badaniem głównej przyczyny incydentów. Zarządzanie incydentami są często wykonywane przez inżynierów Site Reliability Engineering, ale mogą to robić inżynierowie oprogramowania lub inni w zależności od sytuacji i usługi. Więcej informacji znajdziesz w rozdziale 12 książki Site Reliability Engineering.

Ograniczanie/naprawa

Uznaje się, że problem jest naprawiony tylko wtedy, gdy Google ma pewność, że jego wpływ na czas nieokreślony zostanie rozwiązany. Poprawką może być na przykład wycofanie zmiany, która wywołała incydent.

Podczas trwania incydentu zespoły pomocy i usługi spróbują go rozwiązać. Łagodzenie ma miejsce, gdy można ograniczyć wpływ lub zakres problemu, np. tymczasowo udostępniając dodatkowe zasoby usłudze, która uległa przeciążeniu.

Jeśli nie zostanie znalezione żadne środki zaradcze, zespół pomocy znajdzie sposoby obejścia problemów i poinformuje o nich, o ile będzie to możliwe. Obejścia to działania, które możesz podjąć w celu rozwiązania podstawowej potrzeby pomimo incydentu. Można obejść ten problem, używając innych ustawień dla wywołania interfejsu API, aby uniknąć problematycznej ścieżki kodu.

Dalsze czynności

W trakcie trwania incydentu zespół pomocy regularnie dostarcza aktualne informacje. Aktualizacje zazwyczaj obejmują:

  • Więcej informacji o incydencie, np. komunikaty o błędach, funkcje, których dotyczy problem, i jego zasięg.
  • Postępy w zakresie złagodzenia skutków, w tym wszelkie sposoby obejścia tego problemu.
  • Harmonogram komunikacji dostosowany do incydentu.
  • Zmiany stanu, na przykład informacje o naprawieniu incydentu.

Postmortem

Wszystkie incydenty są poddawane wewnętrznej analizie po zakończeniu incydentu, co pozwala w pełni zrozumieć incydent i określić, jakie ulepszenia w zakresie niezawodności mogą wprowadzić Google. Te ulepszenia są następnie śledzone i wdrażane. Więcej informacji o postmorteme w Google znajdziesz w rozdziałie 15 księgi Site Reliability Engineering.

Raport o incydentach

Gdy incydenty mają bardzo szerokie i poważne skutki, Google udostępnia raporty o nich, które opisują objawy, ich wpływ, główną przyczynę, działania naprawcze i zapobieganie incydentom w przyszłości. Podobnie jak w przypadku postmortem, zwracamy szczególną uwagę na działania, które podejmujemy, aby wyciągnąć wnioski z problemu i zwiększyć niezawodność. Celem Google podczas pisania i publikowania postmortem jest zachowanie przejrzystości i demonstrowanie naszego zaangażowania w tworzenie stabilnych usług dla naszych klientów.

Najczęstsze pytania

Chcę otrzymywać powiadomienia o trwających przerwach w działaniu usługi. Co mam zrobić?

  • Dołącz do grupy powiadomień Google Maps Platform, aby otrzymywać powiadomienia o trwających problemach i śledzić postęp incydentu w czasie rzeczywistym. Dzięki temu będziesz na bieżąco z ogłoszeniami dotyczącymi usług i platformy.
  • Za pomocą linków kanału RSS lub historii JSON u dołu panelu publicznego stanu Map Google możesz wyświetlić kanał z bieżącymi i wcześniejszymi incydentami. Każdy post na pulpicie nawigacyjnym spowoduje uruchomienie posta na kanale. Aby Cię na bieżąco informować, każdy post na kanale będzie zawierał wszystkie wiadomości i aktualności związane z danym wydarzeniem panelu. Dzięki temu nie musisz przeglądać historii plików danych, aby śledzić postępy. Kanały RSS są publikowane w formacie XML. Rozszerzenia przeglądarki, takie jak Rozszerzenie Subskrypcje RSS (od Google), umożliwiają wyświetlanie podglądu zawartości kanału i subskrybowanie kanału za pomocą ulubionego czytnika RSS. Historia JSON to kanał internetowy JSON wcześniejszych incydentów. Różne biblioteki oprogramowania i platformy internetowe obsługują dystrybucję treści za pomocą kanału JSON.

Jakie informacje o stanie znajdę na stronie głównej panelu?

Publiczny panel stanu Map Google zawiera informacje o interfejsach API i usługach wchodzących w skład Google Maps Platform. W przypadku wystąpienia aktywnego incydentu opublikujemy tutaj informacje na temat poszczególnych interfejsów API i usług w Google Maps Platform. Zawsze wyświetlane są wskaźniki stanu, które wskazują ogólny stan każdego interfejsu API i usługi, wybierając jedną z tych wartości:

  • Przerwa w działaniu usługi: system produkcyjny lub usługa nie działają. Obejście jest niedostępne lub trudne do zaimplementowania.
  • Zakłócenia w działaniu usług: system produkcyjny lub usługa mają częściowe zakłócenia w działaniu lub nie działają zgodnie z oczekiwaniami. Istnieje sposób obejścia.
  • Informacje o usłudze: system produkcyjny lub usługa ma częściowe zakłócenia lub nie działa zgodnie z oczekiwaniami. Ogólnie rzecz biorąc, usługa jest nadal dostępna, wpływ jest niewielki i obejmuje niewielką liczbę użytkowników.
  • Dostępne: usługa jest w pełni funkcjonalna i działa zgodnie z oczekiwaniami.

Czy panel jest aktualizowany w czasie rzeczywistym?

Publiczny panel stanu Map ma udostępniać w czasie zbliżonym do rzeczywistego stan usług, które są ogólnie dostępne i są objęte gwarancją jakości usług Google Maps Platform. Wszystkie incydenty są sprawdzane przed publikacją, więc może minąć trochę czasu od ich wykrycia. Dlatego nie należy używać panelu do śledzenia dostępności.

Czy mogę używać panelu do monitorowania czasu działania Google Maps Platform?

Publiczny panel stanu Map Google nie służy do monitorowania stanu usług GMP na podstawie gwarancji jakości usług GMP, ponieważ czasy przerw w działaniu usługi podane w panelu mogą nie odzwierciedlać rzeczywistego „Niedostępności” (zgodnie z gwarancją jakości usług) w projekcie, zwłaszcza w przypadku incydentów o mniejszej wadze. Dodatkowo wyświetlane okresy mogą obejmować dodatkowy czas po złagodzeniu problemu na pełne potwierdzenie poprawki.

Aby monitorować wykorzystanie interfejsu API, tworzyć panele i tworzyć alerty, otwórz Google Maps Platform Monitoring.

Co zrobić, jeśli nie widzę incydentu w panelu?

Nie każdy incydent ma wpływ na niektórych klientów i projekty. W panelu uwzględniane są tylko poważne i poważne incydenty. Jeśli napotkasz problem, którego nie ma w panelu, skontaktuj się z zespołem pomocy .

Gdzie znajdę informacje o wcześniejszych przerwach i zakłóceniach w działaniu usługi?

Strona Historia w publicznym panelu stanu Map zawiera repozytorium zakłóceń i przerw w działaniu usługi z ostatnich 365 dni. Kliknij incydent, aby przejrzeć związane z nim posty w trakcie jego trwania oraz wszystkie raporty o nim opublikowane przez zespół pomocy.

Kto aktualizuje panel?

Globalny zespół pomocy Google Maps Platform monitoruje stan usług przy użyciu wielu różnych typów sygnałów i aktualizuje panel w przypadku powszechnego problemu. W razie potrzeby po rozwiązaniu incydentu opublikuje też szczegółowy raport z analizy.

Jaka jest różnica między „incydentem” a „przerwami w działaniu usługi”?

Chociaż te terminy są często używane zamiennie, panel stanu publicznego Map Google i nasza zewnętrzna komunikacja korzystają z terminu „incydent” w odniesieniu do dowolnego okresu pogorszenia lub awarii usługi i odniesienia wyłącznie do najpoważniejszych szkód, gdy usługa nie działa w zakresie, w jakim w rzeczywistości sprawia, że wrażenia naszych klientów są bezużyteczne.