עבודה זו מתמודדת עם מציאת ניתוח צורני (מורפולוגי) נכון בשפה העברית באמצעות המחשב, לטקסט נתון בעברית ללא ניקוד.
למשל,
עבור המשפט:
אדם שלו שומר על קור הרוח שלו
המחשב צריך לדעת כי:
·
המחרוזת "אדם" היא שם-עצם זכר יחיד,
·המחרוזת "שלו" (הראשונה) היא תואר זכר יחיד,
·המחרוזת "שומר" היא פועל בינוני זכר יחיד,
·המחרוזת "על" היא מילת יחס,
·המחרוזת "קור" היא שם-עצם נסמך זכר יחיד,
·המחרוזת "הרוח" היא "ה" הידיעה + "רוח", כלומר שם-עצם מיודע נקבה יחידה,
·והמחרוזת "שלו" (השניה) היא מילת-יחס "של" עם כינוי-שייכות לזכר יחיד נסתר.
ניתן לראות כבר בדוגמה פשוטה זו שמשימת
הניתוח הינה מורכבת למדי. בכתיב עברי לא-מנוקד חלק גדול מהמחרוזות הן רב-משמעיות, והניתוח הצורני הנכון שלהן תלוי בהקשר שבו הן מופיעות (כמו המחרוזת "שלו" מהדוגמה).
יש להדגיש, שעבור כל מחרוזת נתונה קל יחסית למצוא בעזרת מחשב את כל הניתוחים הצורניים האפשריים שלה. למשל, בהינתן המחרוזת "הגר" ניתו למצוא את הניתוח כשם-פרטי-נקבה hagar, את הניתוח כשם-עצם-זכר-מיודע ha-ger, את הניתוח כפועל-בינוני עם כינוי זיקה ha-gar, וכו'. בעיה זו כבר נפתרה על-ידי חוקרים שונים. בעיה קשה יותר היא מציאת הניתוח הצורני הנכון בהקשר מסויים. כך למשל, במשפט: "הגר הלך הביתה" המחרוזת "הגר" היא שם-עצם-זכר-מיודע (ha-ger), אבל במשפט הכמעט-זהה "הגר הלכה הביתה" המחרוזת "הגר" היא שם-פרטי-נקבה (hagar).
ניתוח צורני נכון הוא השלב הבסיסי במשימות מורכבות יותר, כגון תרגום או ניקוד. קל לראות, למשל, בדוגמה מראש העמוד, שהמחשב יוכל לתרגם בצורה נכונה את המחרוזת "שלו" (לאנגלית או לכל שפה אחרת), וגם לנקד אותה נכון, רק אם יזהה את הניתוח הצורני הנכון שלה.
בשנים האחרונות פותחו מספר מערכות מסחריות שנועדו לפתור בעיות אלו (נקדן, תרגומון, ועוד). מערכות אלו כוללות יחידה לניתוח צורני. הניתוח הצורני בהן אינו מושלם – המערכת מצליחה לנתח נכון רק כ95% מהמלים, אך לא את כולן. מפתחי מערכות אלו פועלים בהתמדה לשיפור אחוזי הדיוק של המערכות שלהם.
בעבודה זו נבדקה היעילות של שיטות הסתברותיות לניתוח צורני בעברית. לשם כך נכתבה תוכנה שקוראת טקסטים עבריים מנותחים ולא-מנותחים, ומבצעת ניתוח צורני בשלושה שלבים:
1. שלב המחרוזת: בשלב זה התוכנה מוצאת עבור כל מחרוזת את הניתוח הסביר ביותר עבורה, ללא תלות בהקשר שבו היא מופיעה, ע"פ הטקסטים הנתונים. לאחר שלב זה כ- 83% מהמחרוזות מקבלות את הניתוח הנכון שלהן.
2. שלב הזוג: בשלב זה התוכנה מוצאת "פקודות תיקון", שמתקנות את הניתוח של כל מחרוזת ע"פ הניתוחים של המחרוזת שלפניה ושל המחרוזת שאחריה. פקודות התיקון נלמדות באופן אוטומטי, באלגוריתם המשתמש בטקסט מנותח קטן. לאחר שלב זה כ- 94% מהמחרוזות מקבלות את הניתוח הנכון שלהן.
3. שלב המשפט: בשלב זה התוכנה מבצעת ניתוח תחבירי שטחי של כל המשפט, ונעזרת בו כדי לשפר את הדיוק של הניתוח שהושג בשלב 2. לאחר שלב זה כ- 96.5% מהמחרוזות מקבלות את הניתוח הנכון שלהן.
הדיוק שהושג הוא טוב יותר מהדיוק המירבי שדווח עד כה עבור בעיית הניתוח הצורני בעברית (95%), והוא מתקרב לדיוק המקובל עבור הבעיה המתאימה בשפה האנגלית - בעיית מציאת-חלקי-הדיבר (tagging) (97%).
מהבדיקות שביצענו עולה, כי יש חשיבות לכל שלושת השלבים: רק כאשר שלושתם מופעלים מתקבל אחוז הדיוק הגבוה ביותר. התוצאות מראות שיש מקום לשילוב בין שיטות הסתברותיות לבין שיטות דקדוקיות בשלבים השונים של תהליך הניתוח הצורני.