Google Maps Platform 突发事件管理

突发事件沟通渠道

Google Maps Platform 支持团队提供不同的突发事件沟通渠道。

Google Maps Platform 突发事件和服务中断问题跟踪器列表中包含所有已知的突发事件。您可以轻松查看正在发生的突发事件,通过订阅问题来跟踪进度,还可以添加评论,帮助我们的团队开展调查。

对于大范围的服务中断,首先会在 Google Maps Platform Notifications 论坛中报告。检测到服务中断后,加入此论坛的所有客户都将收到电子邮件通知以及所有后续更新信息,直到问题得到解决。

检测到问题并在问题跟踪器中报告时,Cloud Console 中的 Google Maps Platform 支持页面上也会显示一个横幅。该横幅中会标识受影响的产品,并提供指向问题跟踪器的链接。

突发事件的生命周期

Google Maps Platform 遵循 Google Cloud Platform 突发事件管理框架

出现服务中断或服务降级时,产品工程团队和 Google Maps Platform 支持团队将协同解决突发事件并与您沟通。

生命周期

检测

Google 使用内部监控和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您检测到尚未在问题跟踪器中报告的突发事件,请转到 Cloud Console 中的 Google Maps Platform 支持页面,并创建新的支持案例。

初步回应

检测到突发事件时,支持团队会主动与您沟通。突发事件的初始通知通常很短,一般只提及受影响的产品。这是因为我们优先考虑快速通知到位,而非提供具体细节。具体细节将在后续更新中提供。

为了向您提供尽可能多的信息,我们会根据问题的范围和严重程度使用不同的沟通渠道。

回应

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由站点可靠性工程师完成,但根据具体情况和产品,也可能由软件工程师或其他人来完成。如需了解详情,请参阅《站点可靠性工程》一书的第 12 章

缓解/解决

只有当 Google 确信所做更改将永久终止问题带来的影响时,才会认为问题“已解决”。例如,所采用的解决操作可能是对导致触发突发事件的更改进行回滚。

当突发事件正在处理中时,支持和产品团队会尝试“缓解”问题。缓解是指可以缩减问题的影响或范围,例如通过临时为过载的服务提供额外资源。

如果没有找到任何缓解措施,支持团队会尽可能找到“临时解决方法”并告知相关方。临时解决方法是指发生突发事件后可用于解决基本需求的操作步骤。临时解决方法可能会对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟踪

当突发事件正在发生时,支持团队会定期更新相关情况,通常会提供以下内容:

  • 有关突发事件的更多信息,例如错误消息、受影响的功能及其影响范围。
  • 缓解策略的进展,包括所有临时解决方法。
  • 根据突发事件专门制定的沟通时间表。
  • 状态变化,例如突发事件已解决。

事后分析

Google 会针对所有突发事件在内部执行事后分析,以便全面了解突发事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《站点可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。如同事后分析一样,我们会特别注意在了解问题和提高可靠性时所采取的步骤。Google 撰写和发布事后分析的目的是实现公开透明化,并表明我们致力于为客户构建稳定服务的承诺。

常见问题解答

我想在服务中断期间收到通知,该怎么做?

加入 Google Maps Platform Notifications 论坛,即可接收正在发生的问题的通知,还可以实时跟踪突发事件的处理进度。您还可以通过此论坛及时了解产品和平台公告。

在哪里可以查看服务中断是否已报告?

Google Maps Platform 团队提供了多种资源,可帮助您在服务中断期间了解最新信息。请选择一种最适合您的资源。

  • 问题跟踪器中的突发事件列表:所有已知突发事件的参考列表。您可以轻松查看正在发生的突发事件,通过订阅它们来跟踪进度,还可以添加评论,帮助我们的团队开展调查。您可以在 Google Maps Platform 支持文档中找到指向公开问题跟踪器的链接。
  • Google Maps Platform Notifications 论坛:一个 Google 网上论坛,所有大范围的服务中断都会在这里报告。检测到服务中断后,加入此论坛的所有客户都将收到电子邮件通知以及后续更新信息,直到问题得到解决。
  • Cloud Console 中的 Google Maps Platform 支持页面:在检测到问题并在问题跟踪器中报告时,“支持”页面上会显示一个显眼的横幅,其中显示关于问题的通知以及指向问题跟踪器的链接。

    服务中断

如果我遇到了问题,但该问题并未在通知论坛和问题跟踪器中列出,该怎么办?

可能是只有您的项目遇到了这个问题,或者这个问题影响的客户数量很有限。如果系统未发布任何突发事件,请转到 Cloud Console 中的 Google Maps Platform 支持页面,并创建新的支持案例。

“突发事件”和“服务中断”之间有什么区别?

虽然这两个术语通常可以互换使用,但我们在对外沟通时使用“突发事件”来表示所有降级服务期。“服务中断”仅表示最严重的问题,此时产品在很大程度上无法正常运行。