@pcinfogmach אם הבנתי נכון את הבעיה שלך אז יש מודל של ספריא שפותר את הבעיות האלו.
נראה לי שאלו הקישורים:
https://huggingface.co/Sefaria/he_subref_ner
https://huggingface.co/Sefaria/he_ref_ner?text=ירושלמי+פאה+כג+ע"ד
https://huggingface.co/Sefaria/he_ref_ner/blob/main/he_ref_ner-any-py3-none-any.whl
ייתכן וטעיתי בקישורים... אם זה חשוב אני יכול יותר לעיין.
עריכה: כעת אני רואה שאתה מחפש להבין את הפורמט הקיים. לכאורה המודל לא מכוון לזהות פורמט קיים אלא רק מחפש מתוך המילים מהו מקור.
לא יודע אם זה יעזור לך או לא.
אולי כדאי לשתף פעולה בין תוסף תורת אמת לבין אוצריא כדי להגיע לתוצאה שתהיה טובה ל2 הפרויקטים...