איך לזהות על ידי תוכנה קישורים בספרי קודש ?
-
היה שרשור עם בעיה דומה באקסל, רצו להשוות בין שתי טבלאות שלפעמים טבלה אחת הכילה רק חלק מהמילה בטבלה שניה. לדוגמא להשוות בין "סוכר" ל"מסוכר"
https://tchumim.com/topic/15991/אקסל-יבוא-סיווג-לפי-תנאי-מכיל?_=1712086562462אולי תוכל לדלות מפה רעיון
-
@Whenever
יש פה מורכבות מסויימת שלא חשבתי עליה.
מכיון שהתוכנה שבניתי היא דינאמית - אין לה מסד נתונים כלל - הכל נבנה במקום עם פתיחת הקובץ. כך שאין לי כותרות מוכנות להשוות אליהם מראש. (שמות ספרים יש לי רשימה כי הם נטענים עם טעינת התוכנה אבל לא כותרות) -
@pcinfogmach אולי לעשות רשימת כותרות שתשמר היכן שהוא בתוסף.
-
@pcinfogmach כתב באיך לזהות על ידי תוכנה קישורים בספרי קודש ?:
@Whenever
יש פה מורכבות מסויימת שלא חשבתי עליה.
מכיון שהתוכנה שבניתי היא דינאמית - אין לה מסד נתונים כלל - הכל נבנה במקום עם פתיחת הקובץ. כך שאין לי כותרות מוכנות להשוות אליהם מראש. (שמות ספרים יש לי רשימה כי הם נטענים עם טעינת התוכנה אבל לא כותרות)זה הרבה מעל הידיעות שלי:)
בכל אופן מעניין אותי למה צריך שיהיה קישור מדויק?
שעושים חיפוש בגוגל, המנוע מנסה לדייק לפי המידע שמזינים, לפעמים זה בדיוק ולעיתים לא קשור. האם הקישורים צריכים להיות בדיוק?
נראה לי שיותר קל לנסות לקלוע מאשר לבנות מערכת שתמיד קולעת. -
בגדול אם אני יכול לזהות שם ספר בצורה נכונה זזה כבר ייעל את זה בהרבה - איפה הסיבוך:
יש ספרים עם שמות זהים: לדוגמא - ברכות
יכול הליות בבלי ברכות או משנה ברכות
או יותר גרוע בראשית
יש המון ספרים שכוללים בתוך השם שלהם את המילה בראשית (בהצחלה בסוף או באמצע). איך התוכנה תידע באיזה בראשית מדובר?? במקרה הזה כמובן אפשר לעשות ברירת מחדל שיצביע לחומש אבל שוב זה אומר הרבה hardcoding אני מחפש צורה דינאמית שתחפה על המקרים שלא עשיתי בצורה ישירה -
כאשר הלקוח לוחץ על ברכות א
צריך להביא לו גם את גמרא ברכות דף א וגם משניות מסכת ברכות פרק א וכן כל ספר שיכול להתאים -
@ivrtikshoret
הממ רעיון מעניין... -
@pcinfogmach אם הבנתי נכון את הבעיה שלך אז יש מודל של ספריא שפותר את הבעיות האלו.
נראה לי שאלו הקישורים:
https://huggingface.co/Sefaria/he_subref_nerhttps://huggingface.co/Sefaria/he_ref_ner?text=ירושלמי+פאה+כג+ע"ד
https://huggingface.co/Sefaria/he_ref_ner/blob/main/he_ref_ner-any-py3-none-any.whl
ייתכן וטעיתי בקישורים... אם זה חשוב אני יכול יותר לעיין.
עריכה: כעת אני רואה שאתה מחפש להבין את הפורמט הקיים. לכאורה המודל לא מכוון לזהות פורמט קיים אלא רק מחפש מתוך המילים מהו מקור.
לא יודע אם זה יעזור לך או לא.
אולי כדאי לשתף פעולה בין תוסף תורת אמת לבין אוצריא כדי להגיע לתוצאה שתהיה טובה ל2 הפרויקטים... -
לספריא יש פרוייקט רציני בנושא, בשילוב שני מודלים של בינה מלאכותית, אחד מסמן טקסט שנראה כמקור, והשני מפרק אותו לגורמים. ואחר כך יש אלגוריתמים למצוא את המקור המדוייק ברמת ודאות גבוהה (ואם אין ודאות לא מקשרים). הקוד נמצא כאן, אבל אני לא עברתי על כולו ולא בטוח שאני מבין איך זה עובד: https://github.com/zevisvei/Sefaria-Project/tree/master/sefaria/model/linker
אגב הם קוראים לזה linker ויש להם גם API לכל מי שרוצה להפוך דף אינטרנט שיש בו דברי תורה, לקישורים אוטומטיים לספריא.
-
דווקא הקוד של הטסט מעניין לראות את היכולות של האלגוריתם. https://github.com/zevisvei/Sefaria-Project/blob/master/sefaria/model/linker/tests/linker_test.py
-
@sivan22 כתב באיך לזהות על ידי תוכנה קישורים בספרי קודש ?:
אגב הם קוראים לזה linker ויש להם גם API לכל מי שרוצה להפוך דף אינטרנט שיש בו דברי תורה, לקישורים אוטומטיים לספריא.
אני עשיתי ניסיון על דף [המרתי וורד לHTML] והתוצאות היו חלקיות ולא מספקות. הוא גם עשה את העבודה רק על החלק הראשון של הדף ['הדף' שלי היה של יותר מ100 עמודים] ככה שאולי הוא מוגבל לכמות עמודים.