איך לזהות על ידי תוכנה קישורים בספרי קודש ?
-
מכיוון שהנושא לכשעצמו לא ברור לי דיו אני כותב שאלה לא ברורה בתקוה שמתוך הדיון לכשעצמו הדברים יתבהרו - מה ריאלי ומה לא - תודה מראש.
אני מחפש עצה איך ניתן לזהות קשורים בשביל התוכנה שלי - תורת אמת בוורד
בדומה למה שיש בבר אילן ומה שנקרא בלעז "קשוריות" - שאם לוחצים על קישור |(מראה מקום) זה יוביל לפתיחת ספר במיקום הזה.הקושי שלי הוא בעצם איך להשוות קישורים שאינם מדוייקים:
כלומר פורמט הכותרות בתוכנה שלי הוא מתתמיד על ידי הפרדה של פסיקים
לדוגמא: בראשית, פרשת בראשית, פרק ד, טו
בספרי תורת אמת הקישורים מופיעים בכל מיני פורמטים:
לבינתיים אני עובר אחד אחד ומנסה לזהות את הפורמט השאלה שלי אפ יש משהו יותר כללי שאפשר ליישם שתחסוך לי את כל הטירחה הזו? או שלכה"פ ישמש אותי כאשר לא הצלחתי לדמות בצורה מרובעת את הקישורים. -
@Whenever
רגקס בהחלט עוזר אבל איזה רגקס אולי למישהו יש רעיון בתור התחלה?
אומר את האמת אני לא מוצא את ידי ורגלי למרות שכרגיל אני די טוב עם רגקס משהו פה מבלבל אותיבעיקרון אם מדובר בקישור פשוט כמו בראשית א יג לא משנה איך זה אמור להיות קל לזהות
אבל לא תמיד שם הספר הוא רק מילה אחת לדוגמא דברי הימים א
כאן יש כבר מורכבות נוספת כי איך התוכנה תדע שמדובר בא של שם הספר ולא של הפרק. -
היה שרשור עם בעיה דומה באקסל, רצו להשוות בין שתי טבלאות שלפעמים טבלה אחת הכילה רק חלק מהמילה בטבלה שניה. לדוגמא להשוות בין "סוכר" ל"מסוכר"
https://tchumim.com/topic/15991/אקסל-יבוא-סיווג-לפי-תנאי-מכיל?_=1712086562462אולי תוכל לדלות מפה רעיון
-
@Whenever
יש פה מורכבות מסויימת שלא חשבתי עליה.
מכיון שהתוכנה שבניתי היא דינאמית - אין לה מסד נתונים כלל - הכל נבנה במקום עם פתיחת הקובץ. כך שאין לי כותרות מוכנות להשוות אליהם מראש. (שמות ספרים יש לי רשימה כי הם נטענים עם טעינת התוכנה אבל לא כותרות) -
@pcinfogmach אולי לעשות רשימת כותרות שתשמר היכן שהוא בתוסף.
-
@pcinfogmach כתב באיך לזהות על ידי תוכנה קישורים בספרי קודש ?:
@Whenever
יש פה מורכבות מסויימת שלא חשבתי עליה.
מכיון שהתוכנה שבניתי היא דינאמית - אין לה מסד נתונים כלל - הכל נבנה במקום עם פתיחת הקובץ. כך שאין לי כותרות מוכנות להשוות אליהם מראש. (שמות ספרים יש לי רשימה כי הם נטענים עם טעינת התוכנה אבל לא כותרות)זה הרבה מעל הידיעות שלי:)
בכל אופן מעניין אותי למה צריך שיהיה קישור מדויק?
שעושים חיפוש בגוגל, המנוע מנסה לדייק לפי המידע שמזינים, לפעמים זה בדיוק ולעיתים לא קשור. האם הקישורים צריכים להיות בדיוק?
נראה לי שיותר קל לנסות לקלוע מאשר לבנות מערכת שתמיד קולעת. -
בגדול אם אני יכול לזהות שם ספר בצורה נכונה זזה כבר ייעל את זה בהרבה - איפה הסיבוך:
יש ספרים עם שמות זהים: לדוגמא - ברכות
יכול הליות בבלי ברכות או משנה ברכות
או יותר גרוע בראשית
יש המון ספרים שכוללים בתוך השם שלהם את המילה בראשית (בהצחלה בסוף או באמצע). איך התוכנה תידע באיזה בראשית מדובר?? במקרה הזה כמובן אפשר לעשות ברירת מחדל שיצביע לחומש אבל שוב זה אומר הרבה hardcoding אני מחפש צורה דינאמית שתחפה על המקרים שלא עשיתי בצורה ישירה -
כאשר הלקוח לוחץ על ברכות א
צריך להביא לו גם את גמרא ברכות דף א וגם משניות מסכת ברכות פרק א וכן כל ספר שיכול להתאים -
@ivrtikshoret
הממ רעיון מעניין... -
@pcinfogmach אם הבנתי נכון את הבעיה שלך אז יש מודל של ספריא שפותר את הבעיות האלו.
נראה לי שאלו הקישורים:
https://huggingface.co/Sefaria/he_subref_nerhttps://huggingface.co/Sefaria/he_ref_ner?text=ירושלמי+פאה+כג+ע"ד
https://huggingface.co/Sefaria/he_ref_ner/blob/main/he_ref_ner-any-py3-none-any.whl
ייתכן וטעיתי בקישורים... אם זה חשוב אני יכול יותר לעיין.
עריכה: כעת אני רואה שאתה מחפש להבין את הפורמט הקיים. לכאורה המודל לא מכוון לזהות פורמט קיים אלא רק מחפש מתוך המילים מהו מקור.
לא יודע אם זה יעזור לך או לא.
אולי כדאי לשתף פעולה בין תוסף תורת אמת לבין אוצריא כדי להגיע לתוצאה שתהיה טובה ל2 הפרויקטים... -
לספריא יש פרוייקט רציני בנושא, בשילוב שני מודלים של בינה מלאכותית, אחד מסמן טקסט שנראה כמקור, והשני מפרק אותו לגורמים. ואחר כך יש אלגוריתמים למצוא את המקור המדוייק ברמת ודאות גבוהה (ואם אין ודאות לא מקשרים). הקוד נמצא כאן, אבל אני לא עברתי על כולו ולא בטוח שאני מבין איך זה עובד: https://github.com/zevisvei/Sefaria-Project/tree/master/sefaria/model/linker
אגב הם קוראים לזה linker ויש להם גם API לכל מי שרוצה להפוך דף אינטרנט שיש בו דברי תורה, לקישורים אוטומטיים לספריא.
-
דווקא הקוד של הטסט מעניין לראות את היכולות של האלגוריתם. https://github.com/zevisvei/Sefaria-Project/blob/master/sefaria/model/linker/tests/linker_test.py
-
@sivan22 כתב באיך לזהות על ידי תוכנה קישורים בספרי קודש ?:
אגב הם קוראים לזה linker ויש להם גם API לכל מי שרוצה להפוך דף אינטרנט שיש בו דברי תורה, לקישורים אוטומטיים לספריא.
אני עשיתי ניסיון על דף [המרתי וורד לHTML] והתוצאות היו חלקיות ולא מספקות. הוא גם עשה את העבודה רק על החלק הראשון של הדף ['הדף' שלי היה של יותר מ100 עמודים] ככה שאולי הוא מוגבל לכמות עמודים.