תו אופצונאלי בהחלפה בוורד
-
@dovid
השאלה היא איך אני מתקדם מכאן
מה הדרך ומה השלבים ובמה זה מקל עלי (כי באמת מדובר בהמון מסמכים ואני צריך להגיע ל0% פאשלות
כלומר שיכסה את רוב התוצאות (כמובן שאני מעדיף 100%) אבל אסור לי שהוא יטעה אפי' בתוצאה אחת כי את הנעשה אין להשיב.@dovid כתב בתו אופצונאלי בהחלפה בוורד:
אגב אפשר לשלב Regex בוורד בVBA,
איך אני עושה את זה?
@dovid כתב בתו אופצונאלי בהחלפה בוורד:
אבל לדעתי אם זה מצדיק כזו עבודה כבר כדאי לעשות את זה בקוד חיצוני עם שפה מודרנית ולוודא לגמרי שההחלפות נכונות.
הלוואי שיהיה לי מי שיכתוב לי כלי כזה אני לא מכיר היטב שפות מודרניות...
-
@אוריי מה תעשה במקרה שיש משמעות אחרת מלבד סימון סעיף?
לדוגמא, רמ"א, יכול להיות סימן/סעיף רמ"א, ויכול להיות רמ"א (ר' משה איסרליש). ומסתבר שיכול להיות דוגמאות רבות נוספות.
יתכן שאין ברירה אלא לעבור על זה ידנית (או ליצור רשימה של כל האותיות שיכולות להיות במשמעות אחרת ולתת להם החרגה ברג'קס ואח"כ לעבור עליהן ידנית). -
@shraga אכן זו בעיה שאני מתחבט בה יותר מחצי שנה ולצערי מדובר במליוני מילים....
אני באמת עובר 1 1 כמו שכתבתי
אמנם אני מנסה כל הזמן לצמצם את התוצאות
כרגע יש לי מלא חיפושים שאני מריץ זה אחר זה ואני יושב ע"ז שעות
מה שאני מנסה לעשות זה לחבר חיפושים בלי להוסיף עוד עבודה.
לצורך הענין החיפוש שהצגתי בפוסט הראשון ושיחפש אותו עם ו לפני ובלי
אם יש אפשרות זה יקל עלי שבמקום שאני יצטרך לעבור על כל המופעים מחדש כך אני עובר פעם אחת. -
@אוריי כתב בתו אופצונאלי בהחלפה בוורד:
אכן זו בעיה שאני מתחבט בה יותר מחצי שנה
https://tchumim.com/topic/13999
לדעתי להגיע לאפס פאשלות צריך AI
היום יותר מאי פעם זה בהישג יד... -
@dovid כתב בתו אופצונאלי בהחלפה בוורד:
אגב אפשר לשלב Regex בוורד בVBA,
אבל לדעתי אם זה מצדיק כזו עבודה כבר כדאי לעשות את זה בקוד חיצוני עם שפה מודרנית ולוודא לגמרי שההחלפות נכונות.דווקא אני מפתח את זה כעת (באקסס, שיפעל על קובץ וורד חיצוני),
אבל זה כבד נורא... צריך לתת זמן למחשב. זה מחייב לעשות חיפוש ואז החלפה על כל תוצאה, אם לא החלפת רג'קס תמחק את כל העיצוב.
כך שאם אפשר - יש למצוא פתרונות חילופיים. -
@Y-Excel-Access מה שאתה עושה זה סה"כ חיפוש והחלפה רגילים אבל ע"י אוטמציה,
לא לכך נתכוונתי.
יש אפשרות לעשות REGEX והחלפה בלי בכלל להזדקק לחיפוש והחלפה, אלא סתם קוד VBA, ויש אפשרות לעבוד מול הקובץ (OpenXML) בלי וורד בכלל בסיפור. -
@dovid כתב בתו אופצונאלי בהחלפה בוורד:
ש אפשרות לעשות REGEX והחלפה בלי בכלל להזדקק לחיפוש והחלפה, אלא סתם קוד VBA, ויש אפשרות לעבוד מול הקובץ (OpenXML) בלי וורד בכלל בסיפור.
פיתחתי בהתחלה החלפת רג'קס רגילה (אמנם לא עם OPENXML אלא עם הטקסט של כל מסמך הוורד ישירות), אבל זה מחק את העיצוב וכמ"ש.
אם אין עיצוב בקובץ, אז אין הכי נמי, אפשר להחליף את כל הטקסט עצמו וזה באמת מהיר.- עריכה: יעוין עוד - https://stackoverflow.com/questions/41722264/regex-microsoft-word-without-destroying-document-formatting בו גם הוא מביא את הפתרון (הכבד) שאמרתי. @אוריי - אולי זה כן יעזור לך בכל אופן.... כי מקסימום תתן למחשב לעבוד בלילה וכד'.
-
@dovid כתב בתו אופצונאלי בהחלפה בוורד:
@yossiz כתב בתו אופצונאלי בהחלפה בוורד:
לדעתי להגיע לאפס פאשלות צריך AI
אני סבור שאפשר לכתוב קוד מושלם לאפס טעויות.
במובן יהיה מחיר לכיוון ההפוך, שיהיה רשימה שתמתין לבדיקה אנושית.טוב, אני מתקן,
להגיע לאפס פאשלות עם מקסימום אוטומציהלהגיע לאפס פאשלות יש לי כבר קוד מוכן:
function getNumbers(text) {return [] }
אבל ברצינות, האם אתה בטוח שאפשר לשלול לגמרי כל שימוש אחר על מספיק מספרים שהקוד עדיין יהיה שימושי? לא בדקתי כמה כאלה יש
ותמיד ייתכן תמיד שיש שימוש אחר שלא חשבת עליו(אלא אם כן, אחד מתוך עשרת אלפים נקרא אפס)
אבל האמת שגם ב-AI גם על ההגדרה הכי שמרני עדיין אין הוכחה מתמטית שלא יהיו טעויות, (כמובן גם טעויות כאלו שבדיקת אנוש לא היה נכשל בהם, טעויות של שגם אדם היה נכשל בו לא נחשב)
-
@yossiz הוכחה מתמטית אין.
אבל בא נחשוב יחדיו, אתה חברותא מתאימה לזה.
אנחנו דבר ראשון מוודאים בצורה פשוטה שהמספר הוא מספר עברי תקין.
דבר שני מחריגים כל משה וכלב לפני המספר כי זה די נדיר.
דבר שלישי מחלצים את כל המועמדים, יוצרים מהם רשימה distinct, ממיינים לפי ערך מספרי.
נהיה לנו רשימה קצרצרה של כאלף רשומות גג.
עוברים על זה ומסמנים מה שיכול להיות לזה משמעות אחרת (ניתן להיעזר גם פה באוטומציה מהר"ת שיש להם קידומת משה וכלב).
זהו, קיבלנו מעל 90 אחוז החלפה מדוייקים, מדוייקים יותר מבינה מלאכותית (שמנצחת בתחום האי ודאות - אלו שלא טיפלנו). -
@dovid כתב בתו אופצונאלי בהחלפה בוורד:
זהו, קיבלנו מעל 90 אחוז החלפה מדוייקים, מדוייקים יותר מבינה מלאכותית (שמנצחת בתחום האי ודאות - אלו שלא טיפלנו).
זה יותר יעיל ממה שאמרת, כי את כל מה שסומן כ'יכול להיות טעות' נדע שרק את רשימה זו יש לחפש ידנית אחד אחד. מה שמקצר את משך זמן העבודה משמעותית!