אלגוריתם למציאת שורש מילה בעברית
-
שלום רב, אני מחפש אלגוריתם שימצא שורש מילה בעברית, האלגוריתם אמור לפרק מילה למרכיביה, על פי תצורת שורש ואותיות שימוש/צורנים, הוא יכול להעזר בסטטיסטיקות (כי מסד הנתונים עמוס בחומרים קיימים) על מנת למפות מסד נתונים ייעודי שזה תפקידו. אבל בסופו של דבר אני צריך תוצאות של 98% דיוק לפחות (את ה 2% נוכל להשלים אנושית במהלך השנים, אבל יותר מזה נראה לי לא עומד בתקציב ולא ישים כל כך)
מגיגול מצאתי רק תוצאה זו אם יש בידי מישהו עוד משהו יעזור מאוד.
אם לא תהיה ברירה (וכנראה שלא תהיה...), כמובן אצטרך לפתח את האלגוריתם בעצמי, ואם אני כבר כאן אשאל באיזו שפה עלי לבחור, האם אני חייב ללכת על CPP למען מהירות וביצועים, או דילמא אפשר בשפות עיליות יותר.....
תודה לכולם.
פורסם במקור בפורום CODE613 ב20/07/2014 02:48 (+03:00)
-
נשמע מאוד מעניין.
איך היית חושב להתחיל לפתח כזה אלגוריתם?זה לא אמור להיות סיפור, כללי הדקדוק הלשוני בעברית הם תבנית די ברורה, דלא כאנגלית שהיא שפה ברברית (וסליחה מדוברי האנגלית, אבל אני מדבר בהשוואה לעברית וכך מקובלני מרבותי) צריך פשוט להתחיל ולראות עד איזו רמת דיוק אפשר להגיע באמצעות מכונה. בעזרת אוצר מילים די מספיק שמורכב מתנ"ך ועוד הרבה חז"ל, לדעתי אפשר להגיע רחוק. כמה זמן יקח?? מצידי ארבעים שנה, אני רואה את זה כפרוייקט תרבותי לאומי שישפיע על הדורות הבאים בלי ספק.
פורסם במקור בפורום CODE613 ב21/07/2014 17:18 (+03:00)
-
@דוד ל.ט.
לדעתי תפתח בעצמך. בC#.
עד כמה השיקול של יכולת התקשור הישיר של C# מול תוכנות אחרות היא משמעותית, והאם אלגוריתם כזה שדורש משאבי עיבוד בפרט בחיפושים יהיה מספיק יעיל בשפה עילית שכזו? ואגב אתה מדבר מתוך היכרות עם הרבה שפות או סתם ככה כי את C# אתה מכיר?
פורסם במקור בפורום CODE613 ב21/07/2014 17:20 (+03:00)
-
@דוד ל.ט.
לדעתי תפתח בעצמך. בC#.עד כמה השיקול של יכולת התקשור הישיר של C# מול תוכנות אחרות היא משמעותית, והאם אלגוריתם כזה שדורש משאבי עיבוד בפרט בחיפושים יהיה מספיק יעיל בשפה עילית שכזו? ואגב אתה מדבר מתוך היכרות עם הרבה שפות או סתם ככה כי את C# אתה מכיר?
למדתי C++. אבל מעולם לא כתבתי שם תוכנה עם יותר מכמה עשרות שורות קוד, כי בשביל מה להתאמץ ?
חיפושים לא נעשים כ"כ בשפה בד"כ אלא בכלי צד שלישי כמו מסד נתונים שכתוב כמובן בC++.גם אם תממש את המסד בעצמך, לך על C#, זה עלול להיות מהר יותר מC++. מנין לי? ממאמרים רבים באינטרנט ומהיכרות (שטחית) של מעלותיהם וחסרונותיהם של השפות העיליות והתחתיות.
עיקר המעניין והחשוב בפיתוח הזה, זה אפיון וניסוח האלגוריתם.
המימוש נראה לי הקטע הקטן.פורסם במקור בפורום CODE613 ב21/07/2014 17:59 (+03:00)
-
קיבלתי לע"ע את העצה של דוד.
לא נראה לי שהחיפוש אמור להתבצע דרך דטה בייס, אם זה יקרה, זה רק אחרי שהאלגוריתם יהיה מספיק אמין כדי לתת לו לעבוד כמה ימים ו"למלא" דטה בייס ענק בחומרי גלם שהוא מייצר מעצמו ומגדיר אותם, כל שורש במילון יוכפל בחמישים עד מאה בערך (כשאתה לוקח בחשבון את כל הפעלים, הזמנים, המינים, יחיד ורבים וכו'). ואז יש לך דטה בייס של כמה עשרות מיליוני מילים....מה שעולה עכשיו ברצינות זה הדיון הזה שמקבל פן חדש כי זה די מצחיק לכתוב אלגוריתם שכל תפקידו הוא לאפיין את הדקדוק העברי, ולקרוא לאובייקטים באנגלית... כרגע אני מתחיל בשמות אובייקטים בעברית (שמות קלאסים באנגלית, אבל בפנים האובייקטים הם בעברית בלבד...)
פורסם במקור בפורום CODE613 ב05/08/2014 14:51 (+03:00)
-
אולי האתר של האקדמיה העברית יהיה לתועלת: http://maagarim.hebrew-academy.org.il/pages/PMain.aspx.
לגבי הדטה-בייס שהצעת-
האם יותר מהיר למלא אותו מראש בכל ההטיות כפי שהצעת, ולעשות חיפוש אחד על דטה-בייס גדול,
או למלא אותו רק בשורשים, ולעשות כמה חיפושים (כפי השורשים האפשריים) על דטה-בייס קטן?פורסם במקור בפורום CODE613 ב29/03/2015 17:51 (+03:00)
-
האם יותר מהיר למלא אותו מראש בכל ההטיות כפי שהצעת, ולעשות חיפוש אחד על דטה-בייס גדול,
או למלא אותו רק בשורשים, ולעשות כמה חיפושים (כפי השורשים האפשריים) על דטה-בייס קטן?ברור שהדרך הראשונה מהירה יותר. אכן היא תופסת יותר מקום כמובן.
פורסם במקור בפורום CODE613 ב29/03/2015 20:11 (+03:00)
-
אולי גם האתר הזה יהיה לתועלת:
http://www.mila.cs.technion.ac.il/פורסם במקור בפורום CODE613 ב29/04/2015 23:49 (+03:00)
-
מה המטרה של פרויקט כזה?
ע"פ הכתוב באתר הנ"ל (בצד ימין למעלה תלחץ על עברית והכל יהיה כתוב לך בעברית..):
השפה העברית מציבה אתגרים מיוחדים בפני מפתחים של מערכות לעיבוד שפות, עקב הכתב החסר והמורפולוגיה העשירה שלה. יישומים מתקדמים כגון תרגום אוטומטי, מערכות לזיהוי דיבור, תוכנות סיכום, אחזור מידע ותיקון שגיאות זקוקות לתשתית חישובית רחבה המבוססת על ידע לשוני.
פורסם במקור בפורום CODE613 ב21/06/2015 21:55 (+03:00)
-
כמה מאכזב הדבר שהאקדמיה ללשון פשוט דילגה על המקרא מסיבה כל כך טיפשית:
הוחלט שלא לכלול את המקרא בין מקורות אלו, משום שהחומר המקראי נתון לחוקרים בקונקורדנציות ובמילונים טובים, וניתן בקלות לשאוב אותו משם.
מקור: ויקיפדיהלגבי אתר מיל"ה שוב זה נראה כאילו רק עיתון הארץ הוא המקור היחידי לשפה העברית, איפה מקרא? משנה?? וכו'? אני ממש אובד עצות.
תודה לכל העוזרים והמסייעים.
פורסם במקור בפורום CODE613 ב12/12/2015 18:17 (+02:00)