עזרה בהמרת דפים סרוקים לאקסל
-
יש לי כמה מסמכים סרוקים שאני מעוניין להמיר לטבלת אקסל
התנסיתי עם תוכנת ABBYY FineReader שעושה ב''ה עבודה די טובה ומזהה בצורה מצוינת טקסט (באנגלית).
יש בתוכנה אופציה לייצוא אזור מותאם אישית וייבוא על עמודים נוספים ועיינו כאן
אפשרות זו שימושית מאוד למקרה שלי - מסמך אם יותר ממאה עמודים במבנה זהה.
אבל, מפני שהמסך די צפוף בטקסט ובגלל שיש לפעמים סטייה של מילימטרים בזווית הסריקה של המסמך, אפשרות זו לא רלוונטית בשבילי. ולא מצאתי מנוס ולעבור ידנית עמוד עמוד ולסדר עליו טבלה מדוייקת, ועל הרבה עמודים אני צריך להשתמש עם אופציית יישור הטקסט (באפשרויות התמונה בתוכנה) אחרת יש סטייה של העמודות.
מצורף קובץ לדוגמה שהורדתי ברשת
הדוגמה קצת מוגזמת אבל זה בכדי להסביר את הכוונה.
מקור:
תהליך היישור:
לאחר היישור ראו איזה פלא:
קובץ הדוגמה במקור: Name List.pdf
אשמח לרעיונות כיצד ניתן לקצר את זמן העבודהאולי יש תוכנה שיודעת ליישר את הטקסט על הדף באופן אוטומטי?
אולי יש טריק ב-FineReader שאיני מודע אליו?
הברקות אחרות?תודה רבה!
-
@בערל אמר בעזרה בהמרת דפים סרוקים לאקסל:
אבל, מפני שהמסך די צפוף בטקסט ובגלל שיש לפעמים סטייה של מילימטרים בזווית הסריקה של המסמך,
אולי יש תוכנה שיודעת ליישר את הטקסט על הדף באופן אוטומטי?
אולי יש טריק ב-FineReader שאיני מודע אליו?
הברקות אחרות?אולי לסרוק את הדפים מחדש בסורק מקצועי, ואז הכל יהיה ישר.
-
@רחמים אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל זו לא בעיה של סיבוב ימינה ב2 מילימטר, זו בעיה של עיוות פרספקטיבה, זה נראה שסרקו את המסמך עם צלמה שמצלמת ממרחק, ולא עם סורק עם משטח סריקה שמניחים עליו בצורה צמודה את המסמך.
הלכתי על דוגמה קיצונית בשביל להסביר ולהמחיש את העניין (זה מסמך אקראי שמצאתי בגוגל, ודומה למקרה שלי אבל בצורה קיצונית)
במציאות זה מסמך סרוק דרך מזין של מדפסת איכותית ויש סטייה ממש קטנה בשוליים.
-
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל אם הסטייה היא בזוית קבועה, אתה יכול ליצור פעולת-אצווה Batch-Action בפוטושופ שתסובב לך את כל התמונות בתיקייה באותה הזוית.
בד''כ באותה זווית. אבל:
- זה לא על כל הדפים
- זה לא תמיד באותו גודל
- אפשר לעשות זאת באמצעות FineReader כמו בתמונה למעלה ולהכיל על כל הדפים.
-
התחלתי באמת להסתכל על כיוון של תוכנות לשיפור תמונות ומצאתי סקריפט של imagemagick שע''פ ההמחשות עושה עבודה מדהימה
http://www.fmwconcepts.com/imagemagick/textcleaner/index.php
אני מסתבך בהפעלה שלו על ווינדוס. עבדתי לפי ההוראות כאן. לא הבנתי את שלב 4 ואולי זה מה שתוקע אותי.
מצורף תמונה של הפלט לאחר ניסיון הרצה:
נראה לכם זה הכיוון שיכול לעזור למקרה שלי?
אם כן, אעריך מאוד עזרה בהפעלת הסקריפט. -
@בערל לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש...
אבל מצאתי פרוייקט בגיטהב שמתיימר לעשות זאת בהצלחה:
https://github.com/JPLeoRX/opencv-text-deskew
אין לי פייתון מותקן כרגע כדי לבדוק, אבל זה נראה מאוד מבטיח. -
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש...
בדקתי את הארגומנטים הרלוונטיים בדוגמאות שלו, ולא היה נראה לי שצריך להגדיר את גודל הסיבוב והיישור. לכן התלהבתי.
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
אבל מצאתי פרוייקט בגיטהב שמתיימר לעשות זאת בהצלחה:
https://github.com/JPLeoRX/opencv-text-deskew
אין לי פייתון מותקן כרגע כדי לבדוק, אבל זה נראה מאוד מבטיח.הורדתי, התקנתי פייתון. מה אני עושה עם זה עכשיו? סליחה על הבורות... לא מצאתי שם פירוט או מדריך שימוש...
-
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש
נראה לי שהוא כן מזהה אוטומטי.
(אני לא מאמין שזה יותר טוב מהזיהוי המובנה של ABBYY)אם כבר יש סקריפט יותר טוב שמיועד לשורות טקסט:
http://www.fmwconcepts.com/imagemagick/textdeskew/index.php -
@בערל מצאתי תוכנה בשם Scan-Taylor ל-Windows עם ממשק גרפי, בלי צורך להתקין Python או Bash, ושאר טרחות.
הנה קישור לדף גיטהאב עם קובץ בינארי להורדה: https://github.com/scantailor/scantailor/releases/tag/RELEASE_0_9_11_1
היא מקבלת TIFF או JPG בלבד. אבל מסוגלת לזהות לבד את הכיוון, ותומכת בטקסט מימין לשמאל. -
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל מצאתי תוכנה בשם Scan-Taylor ל-Windows עם ממשק גרפי, בלי צורך להתקין Python או Bash, ושאר טרחות.
הנה קישור לדף גיטהאב עם קובץ בינארי להורדה: https://github.com/scantailor/scantailor/releases/tag/RELEASE_0_9_11_1
היא מקבלת TIFF או JPG בלבד. אבל מסוגלת לזהות לבד את הכיוון, ותומכת בטקסט מימין לשמאל.תודה רבה!
בדקתי וזה עושה עבודה די טובה ומשפרת הרבה!
יש שם אפשרות לזיהוי אוטומטי, אבל, לא מצאתי דרך להגדיר זיהוי אוטומטי לכל התמונות בפרוייקט.
כלומר, יש שם אפשרות להכיל את ההגדרה על כל העמודים אבל אז הוא מכיל את הזווית שנקלטה אוטומטי בעמוד הראשון ולא בודק את כולם ומתאים אישית.
לדוגמה: הראשון זוהה שצריך הטייה של 0.12, השני 0.38, השלישי 0.19
במציאות הוא מכיל על כולם 0.12ובנוסף, האם יש אפשרות לדלג על ההגדרות הנוספות? של הרזולוציה וכו'.
אני חושב שהוא מזיק לי לאיכות התמונה. -
@yossiz אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל תוכנת finereader כבר כוללת זיהוי אוטומטי של סיבוב. אם הזיהוי האטומטי שלהם לא מצליח,
התמונות שהעליתי למעלה הם אכן לפני עיבוד, והם באמת מצליחים לשפר בהרבה, אבל לא מספיק בכלל.
האם יש סיבה להאמין שפרוייקט אקראי בגיטהאב יזהה יותר טוב?
את זה אני רוצה לבדוק...
-
@yossiz אמר בעזרה בהמרת דפים סרוקים לאקסל:
אם כבר יש סקריפט יותר טוב שמיועד לשורות טקסט:
http://www.fmwconcepts.com/imagemagick/textdeskew/index.phpאני אשמח מאוד לבדוק אותו, אבל אני מקבל אותו שגיאה כמקודם.
מה יכול להיות?
תודה רבה
-
@בערל אמר בעזרה בהמרת דפים סרוקים לאקסל:
יש שם אפשרות לזיהוי אוטומטי, אבל, לא מצאתי דרך להגדיר זיהוי אוטומטי לכל התמונות בפרוייקט.
בדוקומנטציה של התוכנה מצויין כי התוכנה באה עם ממשק שורת פקודה, לצורך עבודות אצווה.
כדי להריץ עיבוד על קובץ מסויים, פתח PowerShell, ותריץ כך:.\scantailor-cli.exe --layout=1 --layout-direction=rl .\scanned\page1.jpg .\output
וכדי להריץ על כל התמונות בתיקיה
scanned
תוכל ליצור סקריפט.ובנוסף, האם יש אפשרות לדלג על ההגדרות הנוספות? של הרזולוציה וכו'.
אני חושב שהוא מזיק לי לאיכות התמונה.יש אפשרות לציין את ה-DPI של התמונה וכן את מצב הצבע.
תפעיל אתscantailor-cli
בלי פרמטרים כדי לקבל פירוט של כל אפשרויות הריצה.
אם זה אפשרי, מומלץ כמובן לסרוק את המסמכים בהפרדה גבוהה 600 DPI ובמצב צבעוני או גווני אפור, כדי לקבל תוצאות טובות יותר.