אתגרים בבניית מנוע דיבור עברי

עברית היא השפה המדוברת ביותר בישראל. זוהי שפת התנ"ך ושפת החכמים אך זוהי גם שפה השגורה בפיהם של כ-9 מיליון איש ברחבי העולם, אוכלוסיה שרובה הגדול מכיר ושולט היטב במושגי המחשב.

בעידן בו מחשבים משתלטים על עוד ועוד משימות בשרותם של המשתמשים, היכולת לדבר אמורה להיות דרישה מובנת מאליה מכל ציוד ממוחשב. ואכן, יישומים הנעזרים במנועי דיבור מקבלים תשומת לב גוברת והולכת מצד מפתחים וצרכנים. מנועי דיבור קיימים היום כמעט בכל שפה ראשית בעולם, אך גם שפות "קטנות" ודיאלקטים מתהדרים במנועי דיבור משלהם. לפיכך, מפתיע מאוד לגלות שבישראל, הנחשבת מובילה בעולם בתחומי היי-טק וטכנולוגיות ממוחשבות, חסרה תשתית בסיסית כל כך.

הסיבה לאנומליה זאת מקורה בעובדה שעברית היא כנראה השפה הקשה והמסובכת ביותר לניתוח לשוני, כזה הדרוש להפיכת טקסט לקול. הקושי הראשון והבולט ביותר מצוי בדרך שבה נכתבת השפה:

  • שימוש בכתב ללא תנועות: כָּתַב, כְּתַב, כִּתֵב, כֻּתַב ו כְּתֹב נכתבים בצורה זהה, אך מבוטאים אחרת.

  • סובלנות קיצונית באיות מילים: ניקוד מלא וחסר ואותיות המבוטאות בצורה זהה יצרו מצב זה: למשל המילה "פלשתיני" יכולה להכתב בשמונה דרכים שונות – פלסטיני, פלשתיני, פלסתיני, פלשטיני, פלסטינאי, פלשתינאי, פלסתינאי או פלשטינאי.

  • ניקוד מלא וניקוד חסר משמשים בערבוביה ובגמישות רבה. את המילה "לויתן" ניתן לכתוב ב 8 דרכים שונות: 'לויתן' 'לוייתן' 'לווייתן' ,לוויתן, 'ליוויתן', 'ליוייתן' או 'ליווייתן'

תכונות אלה יוצרות מצבים שכיחים בהם למילה מסויימת יש מעל 15 קריאות שונות!

aharon
אודות היזמים דף הבית
All rights reserved @ www.aharontts.co.il צרו קשר