פרויקט Global Wordnet Association

בדף הזה מפורטים פרטי פרויקט של כתיבה טכנית שאושר להשתתפות בתוכנית Google Season of Docs.

סיכום הפרויקט

ארגון קוד פתוח:
Global Wordnet Association
כותבים טכניים:
Yoyo Wu
שם הפרויקט:
מבנה Wordnet
אורך הפרויקט:
אורך רגיל (3 חודשים)

תיאור הפרויקט

למה דווקא הפרויקט הזה?

ככותבת טכנית שלומדת בתחום בלשנות, אני שמחה לגלות פרויקט כזה מתוך כוונה לקשר שפות שונות למסגרת רעיונית מאוחדת. אני רוצה לתרום למסמכים של הפרויקט הזה כדי להפוך אותו לידידותי יותר לקהל.

בעיות

בדקתי את המסמך המקורי, ואני חושב שאפשר לשפר אותו על ידי פתרון הבעיות הבאות: חוסר קטע 'סקירה כללית' בהתחלה, כדי להציג את העקרונות הבסיסיים של WordNet, שיועילו למתחילים. כל היחסים ב-WordNet מוצגים בתבנית אחידה, אבל בחלק מהיחסים חסר מידע הכרחי כמו דוגמאות ובדיקות. המידע הזה מופץ בדף האינטרנט של Princeton Wordnet, בהנחיות הכלליות של EuroWordnet ובמקורות מידע אחרים. בקטע 'הגדרה קצרה' ו'הגדרה', בדוגמה הקצרה ובדוגמה הקצרה אין דפוס אחיד של משפט, כי ההגדרה הקצרה והדוגמה הקצרה הן נכסי היתרונות המרכזיים כשהמשתמשים מעבירים את העכבר מעל הקשר המסוים, 'הגדרה' ו'דוגמה' ממלאות את התפקיד העיקרי של הצגת הקשר. לכן, הן צריכות להיות בנויות בתבנית אחידה, אבל שונה מהטקסט המקביל. הבדיקות מגיעות מ-EWN, אבל צריך להעמיד את גוש התנאים לפני גוף הבדיקה הראשי, כי המשתמשים תמיד יבחנו את התנאים קודם כדי להחליט אם הנתונים הלשוניים שלהם תואמים לתנאים, ורק אז לגשת לבדיקה. גם גוף הבדיקה לא פשוט, כי הוא מכיל הרבה ראשי תיבות לשוניים. התוכן של הקטע 'הערות' מגוון. לפעמים הוא מדגיש נקודה מסוימת בהגדרה, ולפעמים הוא מציין פרטים ספציפיים לפרויקט. נראה לי שכדאי להגדיר תקן לקטע הזה. העברת מידע על פרויקטים ספציפיים לקטע 'שמות' שספציפיים לפרויקטים יכולה להיות נוחה יותר למשתמשים. הקטע 'שמות ספציפיים לפרויקט' מסכם את שם הקשר בכל הפרויקטים. צריך לבדוק את הקטע הזה כי מתרחשות שגיאות של חוסר התאמה. צריך לקשר את מילון המונחים ישירות למסמך ולהוסיף את כל המונחים והראשי תיבות שעשויים להיות לא מוכרים למתחילים.

הנחיות

אני גם רוצה לדבר בהמשך על שני נושאים עם צוות הפרויקט לפני הכנת המסמכים. המסקנה שמתקבלת תשמש כהנחיות כלליות עבור הפרויקט כולו.

על הקהל הנה דוגמה אמיתית לעצמי, למרות שאני חוקרת בתחום השפה, כשאני נתקלתי בפעם הראשונה במסמך המקורי, אין לי מושג מה המשמעות של "synset", אבל הבנתי בדף האינטרנט של Princeton Wordnet את המשמעות של סינסט.

לכן, קודם כול צריך להבין את מבנה הידע של הקהל הפוטנציאלי. אם אין לנו אפשרות להבטיח שכל הקהל יהיה מצויד בידע רלוונטי, לפחות צריך להוסיף קטע 'סקירה כללית', לקשר את מילון המונחים ומקורות מידע קשורים אחרים כדי להנחות אותם ב-WordNet ובפרויקטים הקשורים אליו. צריך לזכור תמיד את ההנחה הזו לאורך כל תהליך התיעוד,

לגבי הפונקציה של המסמכים לפי מה שאני רואה, המטרה של מסמכי המבנה של WordNet היא לעזור למשתמשים להכיר את כל סוגי היחסים ב-WordNet, והמשתמשים יכולים לקבץ מילים ליחסים האלה על סמך המידע שסופק. עם זאת, המסמכים המקוריים נראים יותר כמו תקצירים של מאמרים אקדמיים. אם המטרה של המסמכים היא להוות מקור מידע אקדמי, זה בסדר, אבל אם המטרה היא להנחות משתמשים, צריך למצוא איזון בין אקדמיה לשימושיות.

יתרונות

אוכל לעזור בתרגום הגרסה הסינית של המסמכים. יש לי ניסיון בתרגום מאמרים לשוניים מאנגלית לסינית. אוכל לעזור בפורמט של המסמכים, יש לי ידע בסיסי ב-HTML/CSS ואוכל לעזור לשפר את המראה של דף האינטרנט של המסמכים, למשל על ידי הוספת סרגל ניווט צדדי. אם תרשימי הזרימה יכולים לעזור למשתמשים להבין טוב יותר את הקשרים, אוכל לעזור לצייר תרשימי זרימה באמצעות Visio או Mermaid.

אבני דרך / זמן / יעד

  • שבוע 1: דיון בשאלה לגבי היעד, תהליך העבודה ותוכנית העבודה עם צוות הפרויקט.
  • שבוע 2: מסיימים את מתאר המסמכים וכותבים את הקטע 'סקירה כללית'.
  • שבוע 3 – שבוע 4: כותבים את החלק של יחסי המבנה.
  • שבוע 5 – שבוע 6: כותבים את החלק 'יחסים אחרים ויחסי דומיין'.
  • שבוע 7 עד שבוע 8: כותבים את החלק Role relations.
  • שבוע 9: כותבים את שלושת הקשרים הנותרים ומעדכנים את מילון המונחים.
  • שבוע 10: אם צריך, מתרגמים את הגרסה הסינית.
  • שבוע 11: שינוי הפורמט של המסמכים.
  • שבוע 12: בדיקה אחרונה וסיכום של הפרויקט.