עזרה בהמרת דפים סרוקים לאקסל
-
התחלתי באמת להסתכל על כיוון של תוכנות לשיפור תמונות ומצאתי סקריפט של imagemagick שע''פ ההמחשות עושה עבודה מדהימה
http://www.fmwconcepts.com/imagemagick/textcleaner/index.php
אני מסתבך בהפעלה שלו על ווינדוס. עבדתי לפי ההוראות כאן. לא הבנתי את שלב 4 ואולי זה מה שתוקע אותי.
מצורף תמונה של הפלט לאחר ניסיון הרצה:
נראה לכם זה הכיוון שיכול לעזור למקרה שלי?
אם כן, אעריך מאוד עזרה בהפעלת הסקריפט. -
@בערל לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש...
אבל מצאתי פרוייקט בגיטהב שמתיימר לעשות זאת בהצלחה:
https://github.com/JPLeoRX/opencv-text-deskew
אין לי פייתון מותקן כרגע כדי לבדוק, אבל זה נראה מאוד מבטיח. -
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש...
בדקתי את הארגומנטים הרלוונטיים בדוגמאות שלו, ולא היה נראה לי שצריך להגדיר את גודל הסיבוב והיישור. לכן התלהבתי.
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
אבל מצאתי פרוייקט בגיטהב שמתיימר לעשות זאת בהצלחה:
https://github.com/JPLeoRX/opencv-text-deskew
אין לי פייתון מותקן כרגע כדי לבדוק, אבל זה נראה מאוד מבטיח.הורדתי, התקנתי פייתון. מה אני עושה עם זה עכשיו? סליחה על הבורות... לא מצאתי שם פירוט או מדריך שימוש...
-
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
לפי הדוגמאות באתר שהבאת לא התרשמתי שהוא מסוגל לזהות את הזווית בעצמו, אלא רק לסובב ולנקות את הרקע לפי ארגומנטים מהמשתמש
נראה לי שהוא כן מזהה אוטומטי.
(אני לא מאמין שזה יותר טוב מהזיהוי המובנה של ABBYY)אם כבר יש סקריפט יותר טוב שמיועד לשורות טקסט:
http://www.fmwconcepts.com/imagemagick/textdeskew/index.php -
@בערל מצאתי תוכנה בשם Scan-Taylor ל-Windows עם ממשק גרפי, בלי צורך להתקין Python או Bash, ושאר טרחות.
הנה קישור לדף גיטהאב עם קובץ בינארי להורדה: https://github.com/scantailor/scantailor/releases/tag/RELEASE_0_9_11_1
היא מקבלת TIFF או JPG בלבד. אבל מסוגלת לזהות לבד את הכיוון, ותומכת בטקסט מימין לשמאל. -
@odeddvir אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל מצאתי תוכנה בשם Scan-Taylor ל-Windows עם ממשק גרפי, בלי צורך להתקין Python או Bash, ושאר טרחות.
הנה קישור לדף גיטהאב עם קובץ בינארי להורדה: https://github.com/scantailor/scantailor/releases/tag/RELEASE_0_9_11_1
היא מקבלת TIFF או JPG בלבד. אבל מסוגלת לזהות לבד את הכיוון, ותומכת בטקסט מימין לשמאל.תודה רבה!
בדקתי וזה עושה עבודה די טובה ומשפרת הרבה!
יש שם אפשרות לזיהוי אוטומטי, אבל, לא מצאתי דרך להגדיר זיהוי אוטומטי לכל התמונות בפרוייקט.
כלומר, יש שם אפשרות להכיל את ההגדרה על כל העמודים אבל אז הוא מכיל את הזווית שנקלטה אוטומטי בעמוד הראשון ולא בודק את כולם ומתאים אישית.
לדוגמה: הראשון זוהה שצריך הטייה של 0.12, השני 0.38, השלישי 0.19
במציאות הוא מכיל על כולם 0.12ובנוסף, האם יש אפשרות לדלג על ההגדרות הנוספות? של הרזולוציה וכו'.
אני חושב שהוא מזיק לי לאיכות התמונה. -
@yossiz אמר בעזרה בהמרת דפים סרוקים לאקסל:
@בערל תוכנת finereader כבר כוללת זיהוי אוטומטי של סיבוב. אם הזיהוי האטומטי שלהם לא מצליח,
התמונות שהעליתי למעלה הם אכן לפני עיבוד, והם באמת מצליחים לשפר בהרבה, אבל לא מספיק בכלל.
האם יש סיבה להאמין שפרוייקט אקראי בגיטהאב יזהה יותר טוב?
את זה אני רוצה לבדוק...
-
@yossiz אמר בעזרה בהמרת דפים סרוקים לאקסל:
אם כבר יש סקריפט יותר טוב שמיועד לשורות טקסט:
http://www.fmwconcepts.com/imagemagick/textdeskew/index.phpאני אשמח מאוד לבדוק אותו, אבל אני מקבל אותו שגיאה כמקודם.
מה יכול להיות?
תודה רבה
-
@בערל אמר בעזרה בהמרת דפים סרוקים לאקסל:
יש שם אפשרות לזיהוי אוטומטי, אבל, לא מצאתי דרך להגדיר זיהוי אוטומטי לכל התמונות בפרוייקט.
בדוקומנטציה של התוכנה מצויין כי התוכנה באה עם ממשק שורת פקודה, לצורך עבודות אצווה.
כדי להריץ עיבוד על קובץ מסויים, פתח PowerShell, ותריץ כך:.\scantailor-cli.exe --layout=1 --layout-direction=rl .\scanned\page1.jpg .\output
וכדי להריץ על כל התמונות בתיקיה
scanned
תוכל ליצור סקריפט.ובנוסף, האם יש אפשרות לדלג על ההגדרות הנוספות? של הרזולוציה וכו'.
אני חושב שהוא מזיק לי לאיכות התמונה.יש אפשרות לציין את ה-DPI של התמונה וכן את מצב הצבע.
תפעיל אתscantailor-cli
בלי פרמטרים כדי לקבל פירוט של כל אפשרויות הריצה.
אם זה אפשרי, מומלץ כמובן לסרוק את המסמכים בהפרדה גבוהה 600 DPI ובמצב צבעוני או גווני אפור, כדי לקבל תוצאות טובות יותר.