מחזור החיים של אירוע
הפלטפורמה של מפות Google פועלת בהתאם למסגרת של Google Cloud Platform לאירועים.
במקרה של הפסקת שירות או פגיעה באיכות השירות, צוות מהנדסי המוצר וצוות התמיכה של הפלטפורמה של מפות Google פועלים יחד כדי לטפל באירוע ולהיות בקשר עם הלקוחות.
זיהוי
Google משתמשת במעקב פנימי ובקופסה שחורה כדי לזהות אירועים ולהקפיץ התראות למהנדסים שלנו לצורך חקירה. למידע נוסף, ראו פרק 6 במסמך Site Reliability Engineering.
אם מזהים אירוע שעדיין לא דווח בכלי למעקב אחר בעיות, נכנסים לדף התמיכה בפלטפורמה של מפות Google (ב-Google Cloud Console) ויוצרים בקשת תמיכה חדשה.
מענה ראשוני
כש-Google מזהה אירוע, צוות התמיכה מוביל את התקשורת איתכם. בדר"כ העדכון הראשון על אירוע הוא תמציתי וכולל רק אזכור של המוצר שקשור לאירוע, יחד עם תיאור של התסמינים העיקריים. הסיבה לכך היא שאנחנו נותנים עדיפות גבוהה להתראות מהירות על פני פרטים מפורטים. כשנקבל מידע נוסף, נפרסם פרטים נוספים בעדכונים הבאים.
ערוצי תקשורת לאירועים
כדי לספק את הכמות המתאימה של מידע, צוות התמיכה של הפלטפורמה של מפות Google מציע ערוצי תקשורת שונים בהתאם לאירוע, בהתאם להיקף ולחומרה של הבעיה:
הסטטוס הציבורי של מפות Google הוא המקום הראשון שכדאי לכם לבדוק כשאתם מזהים בעיה שמשפיעה עליכם. בלוח הסטטוסים מופיעים אירועים שמשפיעים על לקוחות רבים. אם אתם רואים בו אירוע, סביר שהוא קשור לבעיה שלכם. כדי לציין את חומרת האירוע, הוא מסומן בלוח כשיבוש בשירות, כהפרעה או כמידע.
קבוצת ההתראות של הפלטפורמה של מפות Google היא קבוצה ציבורית ב-Google שבה מדווחות על כל ההפסקות הנפוצות, בנוסף לעדכונים טכניים אחרים לגבי ממשקי ה-API של הפלטפורמה של מפות Google. כל חברי הקבוצה יקבלו התראה באימייל כשהמערכת מזהה הפסקה זמנית בהתחלה, עד לפתרון הבעיה.
כרטיס הסטטוס של הפלטפורמה של מפות Google הוא הודעה אינפורמטיבית שתמיד מופיעה בקטע תמיכה במפות ב-Cloud Console, שמציגה את הסטטוס הנוכחי של ממשקי ה-API והשירותים בפלטפורמה של מפות Google. כשיש אירוע פעיל, תוצג הודעה שמזהה את המוצר המושפע, עם קישור למרכז השליטה של סטטוס הציבור במפות שבו ניתן לראות אירועים פעילים.
הכלי למעקב אחר בעיות מכיל רשימת הפניות של כל האירועים הידועים. תוכלו להציג אירועים פתוחים, לעקוב אחר ההתקדמות שלהם על ידי הרשמה אליהם, ולהוסיף תגובות כדי לעזור לצוותים שלנו לחקור. תוכלו למצוא את הקישור למעקב אחר בעיות גם במאמרי התמיכה של הפלטפורמה של מפות Google.
אם הבעיה מבודדת לפרויקטים שלכם או משפיעה על מספר מוגבל של לקוחות, המערכת תשתמש בבקשות תמיכה. אם לא הודענו על אירוע, אבל אתם עדיין נתקלים בבעיה, היכנסו לדף של צוות התמיכה של מפות Google (ב-Cloud Console), וצרו בקשת תמיכה חדשה.
תחקיר
צוותים של מהנדסי מוצר הם שחוקרים את הגורמים לבעיות. פעמים רבות מהנדס בתפקיד Site Reliability Engineer מנהל את האירוע, אבל גם מהנדסי תוכנה או בעלי תפקידים אחרים יכולים לנהל אותו, בהתאם לסיטואציה ולמוצר. למידע נוסף, ראו פרק 12 במסמך Site Reliability Engineering.
הפחתת ההשפעה/פתרון
מבחינת Google, הבעיה נפתרת רק כשמיושמים שינויים שבביטחון רב ישימו קץ לאירוע. לדוגמה, הפתרון יכול להיות החזרה למצב קודם (roll back) בעקבות שינוי שגרם לאירוע.
בזמן שהאירוע מתבצע, צוותי התמיכה והמוצר ינסו לצמצם את הבעיה. הפחתת ההשפעה היא צמצום ההשלכות או ההיקף של הבעיה, לדוגמה, על ידי הקצאת משאבים נוספים באופן זמני לשירות שחווה עומס יתר.
אם לא תימצא דרך להפחית את ההשפעה, נציגי התמיכה ינסו למצוא פתרונות זמניים ולעדכן עליהם. פתרונות זמניים הם פעולות שאפשר לבצע כדי לתת מענה לצורך, למרות שהאירוע לא נפתר. פתרון זמני יכול להיות שימוש בהגדרות שונות לקריאה ל-API כדי למנוע נתיב בעייתי של קוד.
המשך מעקב
במהלך האירוע, צוות התמיכה מספק עדכונים שוטפים. בדר"כ העדכונים כוללים:
- מידע נוסף על האירוע, כמו הודעות שגיאה, אילו תכונות הושפעו ועד כמה הוא רחב.
- הפעולות שנעשו בניסיון להפחית את ההשפעה, כולל פתרונות זמניים.
- לוחות זמנים לתקשורת, בהתאם לאירוע.
- שינויים בסטטוס, כמו פתרון האירוע.
הסקת מסקנות לאחר האירוע
כל אירוע מנותח לאחר ניתוח פנימי (אחרי האירוע) כדי להבין בצורה מלאה את האירוע ולזהות שיפורי אמינות ש-Google יכולה לבצע. השיפורים שמזוהים מיושמים עם המשך מעקב אחריהם. למידע נוסף על הסקת מסקנות לאחר אירועים ב-Google, ראו פרק 15 במסמך Site Reliability Engineering.
דוח אירוע
כשלאירוע יש השפעה רחבה ומשמעותית, Google מספקת דוח אירוע עם פירוט של תיאור הבעיה, ההשפעה, הגורמים, הפתרונות וצעדי המנע. כמו בשלב של הסקת המסקנות לאחר האירוע, אנחנו מקדישים תשומת לב למה שעשינו כדי להפיק לקחים מהבעיה ולשפר את האמינות. המטרה של Google בכתיבה ובפרסום דוחות של הסקת מסקנות לאחר האירועים, היא לשמור על שקיפות ולהראות את המחויבות שלנו ליצירת שירותים יציבים ללקוחות.
שאלות נפוצות
אני רוצה לקבל הודעה כשיש הפסקה זמנית בשירות. מה לעשות?
- כדאי להצטרף לקבוצת ההתראות של הפלטפורמה של מפות Google כדי לקבל התראות על בעיות מתמשכות ולעקוב אחר התקדמות האירוע בזמן אמת. הקבוצה הזו גם תעזור לך להתעדכן בהודעות לגבי מוצרים ופלטפורמות.
- כדי לראות פיד של אירועים נוכחיים או קודמים, אפשר להשתמש בקישורים של פיד RSS או היסטוריית JSON בתחתית לוח הבקרה של הסטטוס הציבורי של מפות Google. כל פוסט במרכז הבקרה יפעיל פוסט בפיד. כדי לעדכן אותך, כל פוסט בפיד יכלול את כל ההודעות והעדכונים לגבי האירוע התואם במרכז הבקרה. כך לא תצטרכו לעבור על היסטוריית הפיד כדי להבין את ההתקדמות. פידים של RSS מתפרסמים בפורמט XML. תוספי דפדפן כמו תוסף מינוי ל-RSS (של Google) מאפשרים להציג תצוגה מקדימה של תוכן הפיד ולהירשם כמנויים באמצעות קורא ה-RSS המועדף. היסטוריית JSON היא פיד אינטרנט JSON של אירועים קודמים. מגוון של ספריות תוכנה ומסגרות אינטרנט לתמיכה בהפצת תוכן באמצעות פיד JSON.
איזה סוג של מידע אפשר למצוא בדף הבית של מרכז הבקרה?
בלוח הבקרה של הסטטוס במפות Google מוצג מידע על ממשקי API ושירותים שהם חלק מהפלטפורמה של מפות Google. אם יש אירוע פעיל, נפרסם כאן מידע לגבי כל API ושירות ספציפיים בפלטפורמה של מפות Google. מדדי סטטוס מוצגים תמיד, ומייצגים את התקינות הכוללת של כל ממשק API ושירות, מאחד מהגורמים הבאים:
- הפסקת שירות: מערכת ייצור או שירות מופסקים. אין אפשרות לעקוף את הבעיה או אי אפשר להטמיע אותה בקלות.
- שיבושים בשירות: מערכת ייצור או שירות נפגמים באופן חלקי ו/או לא פועלים כצפוי. יש פתרון עקיף.
- מידע על השירות: מערכת ייצור או שירות נפגמים באופן חלקי ו/או אינם פועלים כצפוי. באופן כללי, השירות עדיין זמין, ההשפעה משנית והוא משפיע על מספר קטן של משתמשים.
- זמין: השירות פועל באופן מלא ופועל כצפוי.
האם מרכז הבקרה בזמן אמת?
לוח הבקרה של הסטטוס הציבורי של מפות Google נועד לספק סטטוס של מוצרים, כמעט בזמן אמת, שזמינים בדרך כלל ומכוסה על ידי הסכם רמת השירות של הפלטפורמה של מפות Google. כל האירועים נבדקים לפני הפרסום. לכן, יכול להיות שיהיה עיכוב קל מרגע הזיהוי הראשון. לכן אין להשתמש במרכז הבקרה למטרות מעקב אחר זמן פעילות.
האם אפשר להשתמש בלוח הבקרה כדי לעקוב אחר זמן הפעולה התקינה של הפלטפורמה של מפות Google?
בלוח הבקרה של הסטטוס הציבורי של 'מפות' אין צורך לעקוב אחר הסטטוס של שירותי GMP לפי הסכם רמת השירות של GMP מאחר שמשך הזמן הקצוב לתפוגה המוצג במרכז השליטה לא משקף בפועל את "זמן ההשבתה" (כפי שמוגדר בהסכם רמת השירות) עבור הפרויקט, במיוחד עבור אירועים בדרגת חומרה נמוכה יותר. כמו כן, משכי הזמן הנוספים עשויים לכלול זמן נוסף לאחר תיקון הבעיה עד לאישור מלא של התיקון.
כדי לעקוב אחר השימוש ב-API, ליצור מרכזי בקרה וליצור התראות, יש להיכנס אל מעקב אחר הפלטפורמה של מפות Google.
מה אם אני לא רואה אירוע בלוח הבקרה?
לא כל הלקוחות והפרויקטים מושפעים מכל אירוע. רק אירועים משמעותיים וחמורים יבואו לידי ביטוי במרכז הבקרה. אם נתקלתם בבעיה שלא מופיעה במרכז השליטה, יש לפנות לתמיכה .
איפה אפשר למצוא מידע היסטורי על שיבושים והפסקות זמניות בשירות?
הדף היסטוריה במרכז השליטה של הסטטוס הציבורי של מפות Google הוא מאגר של שיבושים והפסקות זמניות בשירות במהלך 365 הימים האחרונים. יש ללחוץ על אירוע כדי לבדוק את הפוסטים לגבי האירוע בזמן שהוא היה פעיל, וכן את כל הדיווחים על אירועים שפורסמו על ידי צוות התמיכה.
מי מעדכן את לוח הסטטוסים?
צוות התמיכה של הפלטפורמה הגלובלית של מפות Google עוקב אחר הסטטוס של שירותים באמצעות סוגים רבים של אותות, ומעדכן את לוח הסטטוסים במקרה של בעיה עם השפעה נרחבת. במקרה הצורך, הצוות יפרסם גם דוח ניתוח מפורט לאחר שהאירוע נפתר.
מה ההבדל בין "אירוע" לבין "הפסקה זמנית"?
לרוב יש ניסוחים שונים שאפשר להשתמש בהם יחד, אבל ב'לוח הבקרה של סטטוס הפרטיות במפות Google' ובתקשורת החיצונית שלנו משתמשים במילה "אירוע" כדי להתייחס לכל תקופה של פגום ול'הפסקה' כדי להתייחס רק לפגיעה ה חמורה ביותר, שבה שירות לא פועל עד שמעבירים את חוויית השימוש ללקוחות בפועל.