הערות: הגדרת אתרים לחיפוש

בדף זה מוסבר איך להגדיר את הכיסוי של מנוע החיפוש באמצעות קובץ הערות XML.

  1. סקירה כללית
  2. שימוש בפורמט XML של Programmable Search
  3. שיפור הכיסוי בחיפוש
  4. מגבלות על הערות

סקירה כללית

ניהול אוסף גדול של אתרים יכול להיות מסובך אם אתם בונים מנוע חיפוש גדול. במקום זאת, ניתן להוסיף ולנהל אתרים רבים על ידי רישום שלהם בקובץ הערות והעלאתו. בנוסף, קובצי הערות נותנים לך שליטה רבה יותר על הדירוג של תוצאות חיפוש.

קובץ רישומים הוא פשוט רשימה של הערות. לכל הערה יש שני רכיבים: האתר והתוויות המשויכות אליו. התווית מורה ל-Programmable Search Engine איך לטפל באתר. כלומר, אם צריך לכלול אתר, להחריג אותו, לקדם אותו או להוריד אותו בדירוג. בקובץ ההקשר אתה מגדיר תוויות. בקובץ ההערות אתה מתייג אתרים עם התוויות המתאימות.

כשמתחילים לערוך את קובץ ההערות, מתחילים עם מספר קטן של הערות. קל יותר לבדוק את מנוע החיפוש ולפתור בעיות באמצעות כמה רישומים. כשתקבלו את התוצאות הצפויות, הוסיפו עוד הערות בהדרגה.

ניתן להעלות את קובץ ההערות ללוח הבקרה. לפרטים על מגבלות קבצים, עיין בקטע מגבלות הערות.

חזרה למעלה

שימוש בפורמט XML של Programmable Search

אם אתם רוצים לנצל את כל התכונות הזמינות בקובץ התצורה של Programmable Search Engine, כדאי לכם להשתמש ב-XML.

הערות XML

הדוגמה הבאה היא של הערות XML. קובץ ההערות הזה מורה ל-Programmable Search Engine לכלול את כל מה שנמצא תחת www.webmd.com/hw/* ולהחריג את כל מה שנמצא תחת www.webmd.com/hw/ההרשמה לסרטן/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

קובץ ההערות כולל ארבעה רכיבים בהיררכיה הבאה:

  • Annotations (רכיב root)
    • Annotation
      • Label
      • Comment (אופציונלי)

חזרה למעלה

יצירת הערות חיצוניות

כדי לרשום אתרים שברצונך שמנוע החיפוש יכסה, מבצעים את הפעולות הבאות:

  1. מתחילים את הקובץ עם רכיב הבסיס <Annotations></Annotations>.
  2. אפשר ליצור הערה על ידי הוספת תגי <Annotation></Annotation>, ולאחר מכן להגדיר את המאפיין about באמצעות תבנית ה-URL של האתר.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. שיוך האתר למנוע החיפוש באמצעות התג <Label name=" "/>, וציון האופן שבו מנוע החיפוש יטפל באתר. אפשר לקבל את התוויות של מנוע החיפוש מקובץ ההקשר של מנוע החיפוש. יופיעו שתי תוויות: אחת להוספת אתרים ל-Programmable Search Engine ואחת להחרגת אתרים מה-Programmable Search Engine. אם לא שינית את שם התווית של מנוע החיפוש בקובץ ההקשר, התווית להכללת אתרים מופיעה בצורה _include_ והתווית להחרגת אתרים היא _exclude_. כדי להימנע משגיאות, כדאי להעתיק ולהדביק את התוויות האלה במקום להקליד אותן באופן ידני.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    לאתר יחיד יכולות להיות משויכות כמה תוויות,

    אם שינית את שם התווית בקובץ ההקשר, חשוב לעדכן את הערכים של Label name בקובץ ההערות.

  4. כדי להוסיף אתרים, צריך ליצור רכיב Annotation נוסף ולהגדיר אותו.
  5. שומרים את קובץ ה-XML.

חזרה למעלה

שיפור הכיסוי בחיפוש

Programmable Search Engine מבוסס על אינדקס Google. המשמעות היא שדפי אינטרנט שנכללים באינדקס Google זמינים למנוע החיפוש שלכם, ואילו דפי אינטרנט שלא נסרקו על ידי Google לא יוצגו בתוצאות החיפוש שלכם. אם רוצים ש-Programmable Search Engine יכלול אתרים שלא נכללים כרגע באינדקס Google, צריך לשלוח Sitemap אל Google Search Console.

Sitemap כולל רשימה של דפים באתר שלך, וכן מידע על תדירות העדכון של דפי האינטרנט ועל חשיבותם זה ביחס לזה. שליחת Sitemap עוזרת ל-Google לגלות את דפי האינטרנט שלכם ולשפר את תזמון הסריקה. לקבלת מידע נוסף על קובצי Sitemap, בקר במרכז העזרה למנהלי אתרים ובשימוש בפרוטוקול Sitemap. אם אתה מעוניין לבנות קובצי Sitemap מתקדמים, עיין בכתובת http://www.sitemaps.org/protocol.php.

שליחת קובצי Sitemap שימושית במיוחד אם האתר שלכם כולל:

  • תוכן דינמי
  • דפי אינטרנט ש-Googlebot (סורק האינטרנט של Google) לא יכול לגלות בקלות, כמו דפים עם תכונות AJAX או Flash עשירות
  • מעט אתרים המקשרים אליו.

    Googlebot סורק את האינטרנט על ידי מעבר מדף אחד לקישורים, ולכן אם אין קישורים רבים לאתר, הסורק יקשה על הסורק לגלות אותו. אם האתר שלך חדש, סביר להניח שאין הרבה אתרים שמפנים אליו.

  • ארכיון גדול של דפי תוכן שאינו כולל רשת חזקה של קישורים צולבים

Google יכולה להוסיף לאינדקס רק דפים שיש לה גישה אליהם. לכן, אם אתם משתמשים בקובץ robots.txt או במטא תגים של robots בדפי האינטרנט, עליכם לוודא שהדפים האלה לא חוסמים סורקים.

הכיסוי המשופר לא מתבצע באופן מיידי, כי לוקח זמן מה עד שהדף נסרק ונוסף לאינדקס. אבל ברגע שדפי האינטרנט יהיו באינדקס, הם יוכלו להופיע גם בחיפוש Google וגם ב-Programmable Search Engine.

חזרה למעלה

מגבלות על הערות

בטבלה הבאה מפורטות המגבלות על קובצי הערות שמעלים ל-Programmable Search Engine:

הערה: חשוב להקפיד על המגבלות בדיוק. אם תחרגו מהן, יכול להיות שמנוע החיפוש לא יציג תוצאות.

יחס גובה-רוחב הגבלה
גודל הקובץ (קובצי הקשר או הערות) 30KB
מספר הערות מקסימלי לכל מנוע חיפוש 5,000

טיפ: אם מנוע החיפוש שלך חורג מהמגבלה הגדולה של 5,000 אתרים, כדאי לאחד כתובות URL נפרדות לתבניות URL.

חזרה למעלה