יש לי מלא קבצים עם מלא מקורות לסימנים בשו"ע או תשובות בשו"ת או אותיות וכו'
בקבצים האלו המקורות מסומנים בצורה כזו לדוגמא סי' שח כתוב כך ש"ח עם גרשיים ואם זה סימן ח זה כתוב כך ח'
כעת אני רוצה להוריד את כולם ולעבור על למעלה מכמה מיליוני מילים ואין הצר שווה ...

הבעיה היא שיש מלא סוגי "
- יש הדגשה "הדגשה"
- יש ראשי תיבות סתמיים במסמך
- יש " שיש אותם גם בראשי תיבות וגם בסימנים לדוגמא ר"ס זה יכול להיות גם ריש סימן וגם סי' רס.
האם יש איה סיכוי לאיזה רצף קוד שיכול לעשות את המירב (או שזה ממש בגדר בינה מלאכותית... אולי המומחים ידעו לומר איפה זה אוחז שם ..
)
חשבתי על פתרון (אמנם הוא לא פותר לי את הבעיה באופן מלא)
לזהות את המילה שלפני
סי'
סימן
אות
סו"ס
וכו'.. וכו'..
ואם יש אחריה מילה עם " למחוק אותה.
הבעיה היא שלפעמים מופיע כמה סימנים תר"ד, תקא, וכו' (הפסיקים לא מוכרחים)...
השאלה בכללית האם זה שווה את המאמצים (ולכמה אחוזי תוצאה אני יגיע), או שפשוט בנידו"ד לא נאמר אין יאוש כלל...
אשמח לשמוע גם חוות דעת (וכמובן בע"ה אם יש פתרונות...) או עוד כיווני חשיבה איך לצלוח את הבעיה..
תודה רבה..