Google Maps Platform – Vorfallmanagement

Lebenszyklus eines Vorfalls

Die Google Maps Platform entspricht den Anforderungen des Google Cloud Platform-Frameworks für das Vorfallmanagement.

Wenn ein Dienst ausfällt oder beeinträchtigt wird, arbeiten das Produkttechnikteam und das Google Maps Platform-Supportteam zusammen, um den Vorfall zu beheben und dich darüber zu informieren.

Lebenszyklus

Erkennung

Google verwendet internes und Blackbox-Monitoring, um Vorfälle zu erkennen und entsprechende Benachrichtigungen an unsere Entwickler auslösen zu lassen, damit sie sich der Sache annehmen können. Weitere Informationen findest du in Kapitel 6 des Buches „Site Reliability Engineering“.

Wenn du einen Vorfall entdeckst, der noch nicht in der Problemverfolgung gemeldet wurde, kannst du in der Cloud Console die Seite Google Maps Platform-Support aufrufen und eine neue Supportanfrage erstellen.

Erste Antwort

Wenn Google einen Vorfall erkennt, übernimmt das Supportteam die Kommunikation mit dir. Die erste Benachrichtigung ist dabei in der Regel knapp gehalten. Oft werden nur das entsprechende Produkt und die Hauptsymptome genannt. Wir sind der Meinung, dass in diesen Fällen eine schnelle Benachrichtigung wichtiger ist als viele Details. Sobald wir mehr wissen, erhältst du Updates mit zusätzlichen Informationen.

Antwort

Kommunikationskanäle bei Vorfällen

Das Supportteam der Google Maps Platform bietet je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle für Vorfälle an, um die nötigen Informationen zur Verfügung zu stellen:

Das öffentliche Status-Dashboard für die Google Maps Platform sollte die erste Anlaufstelle sein, wenn ein Problem auftritt. Im Dashboard werden Vorfälle aufgeführt, die viele Kunden betreffen. Wenn du also einen Vorfall in der Liste siehst, ist es wahrscheinlich, dass er mit deinem Problem zusammenhängt. Vorfälle werden dort als Dienstausfall, Störung oder Information gekennzeichnet, um den Schweregrad anzugeben.

In der öffentlichen Google Groups-Gruppe „Google Maps Platform Notifications“ findest du alle weitverbreiteten Ausfälle sowie zusätzliche technische Updates zu den APIs der Google Maps Platform. Alle Kunden, die der Gruppe beitreten, werden per E-Mail über neu erkannte Ausfälle informiert und erhalten weitere Informationen, bis das Problem behoben ist.

Die Statuskarte der Google Maps Platform ist rein informativ. Sie ist jederzeit in der Cloud Console auf der Seite Google Maps Platform-Support zu sehen und zeigt den aktuellen Status von APIs und Diensten der Google Maps Platform. Bei einem aktiven Vorfall wird eine Benachrichtigung mit Informationen zum betroffenen Produkt eingeblendet. Sie enthält auch einen Link zum öffentlichen Status-Dashboard für die Google Maps Platform, auf dem alle aktiven Vorfälle angezeigt werden.

Ausfall

In der Problemverfolgung werden alle bekannten Vorfälle aufgeführt. Dort kannst du dir aktuelle Vorfälle ansehen, ihren Fortschritt verfolgen, indem du sie abonnierst, und Kommentare erstellen, um unsere Teams bei ihren Untersuchungen zu unterstützen. Den Link zur Problemverfolgung findest du auch unter Support und Ressourcen für Google Maps Platform.

Es kann sein, dass das Problem nur deine Projekte oder nur eine begrenzte Anzahl von Kunden betrifft. Wenn du keinen aktiven Vorfall findest, aber trotzdem ein Problem auftritt, kannst du in der Cloud Console die Seite Google Maps Platform-Support aufrufen und eine neue Supportanfrage erstellen.

Untersuchung

Die Ursache von Vorfällen muss von den Produktentwicklungsteams untersucht werden. Das Vorfallmanagement wird oft von Site Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen findest du in Kapitel 12 des Buches „Site Reliability Engineering“.

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie dauerhaft Wirkung zeigen. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen das Support- und das Produktteam, das Problem zu entschärfen, sodass weniger Kunden dadurch beeinträchtigt werden oder die Beeinträchtigung nicht so schwerwiegend ist. Eine Möglichkeit, dies zu erreichen, wäre beispielsweise die vorübergehende Bereitstellung zusätzlicher Ressourcen, wenn ein Dienst überlastet ist.

Wenn keine Lösung zur Entschärfung gefunden wurde, eruiert das Supportteam nach Möglichkeit Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die du ergreifen kannst, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Follow-up

Während eines Vorfalls stellt das Supportteam regelmäßig Aktualisierungen bereit. Diese enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, etwa Fehlermeldungen, betroffene Funktionen und Ausmaß der Verbreitung
  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen
  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall
  • Statusänderungen, z. B. wenn ein Vorfall behoben ist

Postmortem

Nach jedem Vorfall findet ein sogenanntes Postmortem statt. Diese interne Analyse dient dazu, den Vorfall vollständig nachzuvollziehen und zu bestimmen, wie Google die Zuverlässigkeit verbessern kann. Diese Verbesserungen werden dann erfasst und zum Schluss implementiert. Weitere Informationen zu Postmortems bei Google findest du in Kapitel 15 des Buches „Site Reliability Engineering“.

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Berichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Dienste für unsere Kunden zu demonstrieren.

FAQs

Ich möchte über aktuelle Ausfälle benachrichtigt werden. Was soll ich tun?

  • Tritt der Gruppe „Google Maps Platform Notifications“ bei, um über aktuelle Probleme informiert zu werden und den Fortschritt von Vorfällen in Echtzeit zu verfolgen. Als Mitglied dieser Gruppe erhältst du auch immer die neuesten Produkt- und Plattformankündigungen.
  • Nutze den Link RSS-Feed oder JSON-Verlauf am unteren Rand des öffentlichen Status-Dashboards für Google Maps Platform, um einen Feed mit aktuellen und älteren Vorfällen zu sehen. Für jeden Beitrag auf dem Dashboard gibt es einen Beitrag im Feed. Damit du immer auf dem Laufenden bist, enthält jeder Feedbeitrag alle Nachrichten und Updates, die sich auf das entsprechende Dashboard-Ereignis beziehen. So musst du nicht den Feedverlauf durchgehen, um dir ein Bild von der Entwicklung zu machen. RSS-Feeds werden im XML-Format veröffentlicht. Mit Browsererweiterungen wie der Erweiterung „RSS-Abonnement“ (von Google) kannst du dir eine Vorschau der Feedinhalte anzeigen lassen und sie in deinem bevorzugten RSS-Reader abonnieren. Der JSON-Verlauf ist ein JSON-Webfeed früherer Vorfälle. Die Content-Syndikation per JSON-Feed wird von einer Reihe von Softwarebibliotheken und Web-Frameworks unterstützt.

Welche Statusinformationen finde ich auf der Startseite des Dashboards?

Auf dem öffentlichen Status-Dashboard findest du Informationen zu APIs und Diensten der Google Maps Platform. Wenn es einen aktiven Vorfall gibt, werden hier Informationen für jede einzelne API und jeden Dienst veröffentlicht. Statusindikatoren werden immer angezeigt. Sie spiegeln den Gesamtzustand jeder API und jedes Diensts wider. Es gibt die folgenden Statusarten:

  • Dienstausfall: Ein Produktionssystem oder -dienst ist ausgefallen. Es gibt keine Problemumgehung oder sie lässt sich nur schwer implementieren.
  • Dienststörung: Ein Produktionssystem oder -dienst ist nur teilweise verfügbar und/oder funktioniert nicht wie erwartet. Eine Problemumgehung ist vorhanden.
  • Dienstinformation: Ein Produktionssystem oder -dienst ist nur teilweise verfügbar und/oder funktioniert nicht wie erwartet. Der Dienst ist in der Regel weiterhin verfügbar, die Auswirkungen sind minimal und sie betreffen nur eine begrenzte Anzahl von Nutzern.
  • Verfügbar: Der Dienst ist voll funktionsfähig und kann wie erwartet genutzt werden.

Werden auf dem Dashboard Daten in Echtzeit angezeigt?

Das öffentliche Status-Dashboard soll nahezu in Echtzeit den Status von Produkten zeigen, die allgemein verfügbar und vom SLA der Google Maps Platform abgedeckt sind. Alle Vorfälle werden vor Veröffentlichung überprüft. Daher kann es vorkommen, dass Vorfälle erst kurz nach ihrer ersten Entdeckung angezeigt werden. Das Dashboard sollte also nicht dazu verwendet werden, die Verfügbarkeit zu beobachten.

Was mache ich, wenn ich auf dem Dashboard keinen Vorfall sehe?

Nicht alle Kunden sind von jedem Vorfall betroffen. Im Dashboard werden nur allgemeine und schwerwiegende Vorfälle angezeigt. Wenn ein Problem auftritt, das nicht im Dashboard aufgeführt ist, wende dich an den Support.

Wo finde ich Informationen zu früheren Dienststörungen und -ausfällen?

Im öffentlichen Status-Dashboard für die Google Maps Platform ist auch eine Verlaufsseite mit den Störungen und Ausfällen der letzten 365 Tage verfügbar. Du kannst die einzelnen Vorfälle anklicken, um die entsprechenden Beiträge zu lesen und die Vorfallberichte des Supportteams zu sehen, falls welche veröffentlicht wurden.

Wer aktualisiert das Dashboard?

Das globale Google Maps Platform-Supportteam nutzt verschiedenste Signale, um den Status der Dienste zu beobachten, und aktualisiert das Dashboard, falls größere Probleme auftreten. Bei Bedarf veröffentlicht das Team einen detaillierten Analysebericht, nachdem ein Vorfall behoben wurde.

Was ist der Unterschied zwischen einem „Vorfall“ und einem „Ausfall“?

Auch wenn diese Begriffe häufig synonym verwendet werden, gilt auf dem öffentliche Status-Dashboard für die Google Maps Platform und in unserer externen Kommunikation Folgendes: Ein „Vorfall“ liegt vor, wenn der Dienst für gewisse Zeit nur eingeschränkt verfügbar ist. Von einem „Ausfall“ sprechen wir ausschließlich bei schwerwiegenden Problemen, bei denen ein Produkt nicht funktioniert und von unseren Kunden praktisch nicht genutzt werden kann.