Google 地圖平台事件管理

事件的生命週期

Google 地圖平台遵循 Google Cloud Platform 事件管理架構

當服務中斷或效能下降時,產品工程團隊與 Google 地圖平台支援團隊會共同合作以解決事件,並傳送相關通知給您。

生命週期

偵測

Google 會使用內部和黑箱監控來偵測事件,並觸發快訊通知工程師進行調查。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章

如果您偵測到的事件在 Issue Tracker 中尚未有任何通報記錄,請前往 Google 地圖平台支援頁面 (位於 Google Cloud Console) 建立新的客服案件。

初步回應

當 Google 偵測到事件,支援團隊將會主動與您聯繫。一般來說,第一次發出事件通知時,能夠提供的訊息並不多,通常只會提到有問題及重要徵兆的產品。我們的用意是盡速發出通知,重點不在於提供具體細節; 當我們後續掌握更詳盡的資訊,就會向您更新最新情況。

回應

事件通訊管道

為避免資訊量太多或不足,Google 地圖平台支援團隊會視問題影響範圍和嚴重程度,採用不同的事件通訊管道。

一旦您發現有任何影響到您的問題,別忘了先前往地圖公開狀態資訊主頁查看。資訊主頁上會顯示對許多客戶造成影響的事件,而其中列的事件很可能就與您的問題有關。狀態資訊主頁會將事件標示為「干擾」或「服務中斷」,藉此指示事件的嚴重程度。對於有些比較輕微、但影響範圍還是很大的問題,系統會將其標示為資訊事件。

Google 地圖平台通知群組是公開的 Google 群組,所有大規模服務中斷問題及其他有關 Google Maps Platform API 的技術更新,都會透過此通知群組進行通報。系統偵測到服務中斷時,所有群組成員都會在第一時間收到電子郵件通知,並且會持續收到後續更新消息,直到問題解決為止。

每當有任何活躍事件,Cloud Console 的地圖支援部分就會顯示「支援橫幅」訊息,提供相關資訊。橫幅訊息會指明受影響的產品,並附上 Issue Tracker 的連結。

服務中斷

Issue Tracker 內含所有已知事件的參照清單,方便您查看尚未解決的事件,而您可以訂閱事件來追蹤進度,並新增留言以協助團隊調查。此外,您也可以在 Google 地圖平台支援說明文件中找到公開 Issue Tracker 的連結

如果問題可能只與您的專案有關,或只有少數客戶受到影響,則可建立客服案件。如果資訊主頁上沒有任何已宣告的事件,但您仍一直遇到問題,請前往 Cloud Console 中的 Google 地圖平台支援頁面,並建立新的客服案件。

調查

產品工程團隊會負責調查事件的根本原因。事件管理則通常由網站穩定性工程師執行,但視實際情況和產品而定,也可能交由軟體工程師或其他人員負責。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章

緩解措施/修正

只有當 Google 確認已進行的變更可永久終止問題帶來的影響時,才會將問題視為「已修正」。舉例來說,修正可能是將觸發事件的變更復原。

事件還未解決時,支援團隊與產品團隊會嘗試「緩解」問題。「緩解」是指得以縮減問題的影響或範圍,例如暫時提供額外資源予超載服務,以便緩解問題。

如果尚未找出緩解措施,支援團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指事件尚未修正或緩解前,用來解決基本需求的操作步驟。例如,為 API 呼叫使用不同設定,避開有問題的程式碼路徑,就是一種因應措施。

後續追蹤

在事件發生的過程中,支援團隊會定期向使用者提供更新消息,內容通常包括:

  • 事件的詳細資訊,例如錯誤訊息、哪些功能會受到影響及其影響範圍。
  • 緩解措施的進度,包括所有因應措施。
  • 根據事件建立的通訊時間軸。
  • 狀態更新,例如通知「事件已修正」。

檢討報告

所有事件一定會進行內部分析,並在事後出具檢討報告。這是因為 Google 想全盤瞭解事件,並據以研擬可靠的改善措施。在此之後,我們便會持續追蹤並執行這些改善措施。如要進一步瞭解 Google 檢討報告,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章

事件報告

當事件帶來的影響層面既廣泛又嚴重時,Google 就會提供事件報告,概要說明問題、影響、根本原因、補救措施以及日後的防範工作。和檢討報告一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。Google 撰寫及發布檢討報告,就是想要達成透明化,表明我們將致力為客戶打造穩定的優質服務。

常見問題

我想要在發生服務中斷時收到通知,該怎麼做?

  • 加入 Google 地圖平台通知群組即可接收目前問題的相關通知,並即時追蹤事件處理進度。您也可以透過這個群組掌握產品和平台的最新公告資訊。
  • 使用 Google 地圖公開狀態資訊主頁底部的 RSS 動態消息JSON 記錄連結,即可查看目前事件和過往事件的動態消息。每次張貼內容到資訊主頁時,也會張貼內容到動態消息。為即時提供資訊,每次張貼內容到動態消息時,都會包含與對應資訊主頁事件相關的所有訊息和更新內容。如此一來,您就不需要探索動態消息記錄來掌握進度。RSS 動態消息是以 XML 格式發布。RSS 訂閱擴充功能 (由 Google 提供) 等瀏覽器擴充功能可讓您預覽動態消息內容,並訂閱您喜愛的 RSS 閱讀器。JSON 記錄是過往事件的 JSON 網路動態消息。各式各樣的軟體程式庫和網路架構都支援透過 JSON 動態消息聯合發布內容。

我可以在資訊主頁上找到哪種類型的狀態資訊?

Google 地圖公開狀態資訊主頁提供與 Google 地圖平台服務有關的狀態資訊,並會以下列任一指標指出服務的目前狀態:

  • 服務中斷:實際執行環境中的系統或服務已停擺。目前沒有可用的因應做法或是難以部署。
  • 服務干擾:實際執行環境中的系統或服務受到部分影響,且/或無法按預期運作。目前有因應做法。
  • 輕微事件:影響程度較低的問題,資訊僅供參考。服務仍可全面運作。
  • 可用:服務功能完全正常,且可按預期運作。

哪裡可以找到有關過往服務干擾和中斷的資訊?

地圖公開狀態資訊主頁的「記錄」頁面彙整了過去 365 天的服務干擾和中斷資訊。按一下特定事件,即可檢視其發生時的相關貼文,以及支援團隊發布的任何事件報告。

資訊主頁由誰更新?

全球 Google 地圖平台支援團隊會運用多種不同類型的信號來監控服務狀態,並在發生重大問題時更新資訊主頁。事件解決後,他們也會視需要發布詳細的分析報告。

「事件」與「服務中斷」有何不同?

雖然這些字詞經常交替使用,但地圖公開狀態資訊主頁和我們的外部通訊團隊,通會使用「事件」來表示任何時期的服務效能下降問題。「服務中斷」則僅用於表示最嚴重的問題,也就是服務幾乎無法運作,進而徹底影響客戶體驗的情況。