Google Maps Platform 突发事件管理

突发事件的生命周期

Google Maps Platform 遵循 Google Cloud Platform 突发事件管理框架

出现服务中断或服务降级时,产品工程团队和 Google Maps Platform 支持团队将协同解决突发事件并与您沟通。

生命周期

检测

Google 使用内部监控和黑盒监控来检测突发事件并触发提醒,以便我们的工程师展开调查。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您检测到尚未在问题跟踪器中报告的突发事件,请转到 Google Cloud Console 中的 Google Maps Platform 支持页面,并创建新的支持案例。

初步回应

当 Google 检测到突发事件时,支持团队会主动与您沟通。突发事件的初始通知通常很短,一般只提及受影响的产品以及主要症状。这是因为我们优先考虑快速通知到位,而非提供具体细节。随着不断深入了解,我们会在后续更新中提供更多详细信息。

回应

突发事件沟通渠道

为了向您提供尽可能多的信息,Google Maps Platform 支持团队根据问题的范围和严重程度提供了不同的突发事件沟通渠道:

当您发现问题对您有影响时,应该首先在 Google 地图公共状态信息中心检查问题。信息中心会显示影响许多客户的突发事件,因此如果您看到其中列出的突发事件,该事件可能与您的问题有关。为了表示严重程度,状态信息中心将突发事件标记为服务中断、服务故障或服务信息。

Google Maps Platform Notifications 论坛是一个公开的 Google 网上论坛,除了其他关于 Google Maps Platform API 的技术更新之外,所有大范围的服务中断都会在这里报告。初次检测到服务中断后,所有论坛成员都将收到电子邮件通知以及所有后续更新信息,直到问题得到解决。

Maps Platform 状态卡片显示的是一种信息性消息,任何时候都可在 Cloud Console 的地图支持部分查看,用于显示 Maps Platform API 及服务的当前状态。存在待处理的突发事件时,该卡片会通过一条消息通知您受影响的产品并提供一个指向 Google 地图公共状态信息中心的链接,以便您查看待处理的突发事件。

服务中断

问题跟踪器中包含所有已知突发事件的参考列表。您可以查看未结突发事件,通过订阅它们来跟踪进度,还可以添加评论,帮助我们的团队开展调查。您还可以在 Google Maps Platform 支持文档中找到指向问题跟踪器的链接。

如果是可能只有您的项目遇到了这个问题,或者这个问题影响的客户数量很有限,请使用支持案例。如果系统未声明任何突发事件,但您仍遇到了问题,请转到 Cloud Console 中的 Google Maps Platform 支持页面,并创建新的支持案例。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由站点可靠性工程师完成,但根据具体情况和产品,也可能由软件工程师或其他人来完成。如需了解详情,请参阅《站点可靠性工程》一书的第 12 章

缓解/解决

只有当 Google 确信所做更改将永久终止问题带来的影响时,才会认为问题“已解决”。例如,所采用的解决操作可能是对导致触发突发事件的更改进行回滚。

当突发事件正在处理中时,支持团队和产品团队会尝试“缓解”问题。缓解是指可以缩减问题的影响或范围,例如通过临时为过载的服务提供额外资源。

如果没有找到任何缓解措施,支持团队会尽可能找到“临时解决方法”并告知相关方。临时解决方法是指发生突发事件后可用于解决基本需求的操作步骤。临时解决方法可能会对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟踪

当突发事件正在发生时,支持团队会定期更新相关情况,通常会提供以下内容:

  • 有关突发事件的更多信息,例如错误消息、受影响的功能及其影响范围。
  • 缓解策略的进展,包括所有临时解决方法。
  • 根据突发事件专门制定的沟通时间表。
  • 状态更新,例如通知“突发事件已解决”。

事后分析

Google 会针对所有突发事件在内部执行事后分析,以便全面了解突发事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《站点可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。如同事后分析一样,我们会特别注意在了解问题和提高可靠性时所采取的步骤。Google 撰写和发布事后分析的目的是实现公开透明化,并表明我们致力于为客户构建稳定服务的承诺。

常见问题解答

我想在服务中断期间收到通知,该怎么做?

  • 加入 Google Maps Platform Notifications 论坛,即可接收正在发生的问题的通知,还可以实时跟踪突发事件的处理进度。您还可以通过此论坛及时了解产品和平台公告。
  • 使用 Google 地图公共状态信息中心底部的 RSS FeedJSON 历史记录链接,即可查看包含当前突发事件和过往突发事件的 Feed。出现在信息中心内的每个帖子都会触发 Feed 中增加一个帖子。为了让您及时了解最新动态,Feed 中的每个帖子都将包含与对应信息中心事件相关的所有消息和最新动态。这样一来,您便无需浏览 Feed 历史记录来汇总突发事件的处理进度。RSS Feed 以 XML 格式发布。借助 RSS Subscription Extension(由 Google 提供)等浏览器扩展程序,您可以预览 Feed 内容,并通过您常用的 RSS 阅读器进行订阅。JSON 历史记录是过往突发事件的 JSON Web Feed。各类软件库和 Web 框架都支持通过 JSON Feed 进行内容整合。

信息中心首页提供哪些类型的状态信息?

Google 地图公共状态信息中心提供与 Google Maps Platform 中的 API 和服务相关的信息。出现待处理的突发事件后,系统会在此处发布 Google Maps Platform 中每个特定 API 和服务的信息。系统会始终显示每个 API 和服务的整体运行状况的状态,其中包括:

  • 服务中断:生产系统或服务已中断。解决方法不可用或不易实施。
  • 服务故障:生产系统或服务受到部分影响,并且/或者无法按预期运行。目前有解决方法。
  • 服务信息:生产系统或服务受到部分影响,并且/或者无法按预期运行。一般情况下,相应服务仍然可用,影响较小,且只影响少数用户。
  • 可用:服务完全正常并按预期运行。

信息中心是否实时更新?

Google 地图公共状态信息中心旨在提供以下产品的状态信息:已推出正式版且在 Google Maps Platform 服务等级协议 (SLA) 的涵盖范围内。我们会在发布之前对所有突发事件进行验证,因此,发布时间可能会比首次检测到相应数据的时间略晚。因此,不应将信息中心用于跟踪正常运行时间。

如果我没有在信息中心看到突发事件,该怎么办?

并非所有客户都会受到突发事件的影响。信息中心只显示范围较广且严重的突发事件。如果您遇到信息中心未列出某个问题的情况,请与支持团队联系

在哪里可以找到以前的服务故障和中断的相关信息?

Google 地图公共状态信息中心的历史记录页面存储有过去 365 天内的服务故障和中断事件。点击突发事件可查看在该事件处理过程中发表的相关帖子,以及支持团队发布的任何突发事件报告。

谁负责更新信息中心?

全球 Google Maps Platform 支持团队使用许多不同类型的信号监控服务状态,如果发生广泛性问题,该团队将更新信息中心。如有需要,他们还会在突发事件得到解决后发布详细的分析报告。

“突发事件”和“服务中断”之间有什么区别?

虽然这两个术语通常可以互换使用,但在 Google 地图公共状态信息中心和外部通信文档中,我们会使用“突发事件”来表示所有降级服务期。“服务中断”仅表示最严重的故障,此时服务在某种程度上无法正常运行,导致客户体验不佳。