OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית

אלף שין

@yits יש לי פתרון פשוט בהרבה!!
לעשות OCR חינמי.... יש היום דברים ממש מדוקיים גם לעברית...

yits

@אלף-שין אין מה להשוות בין קובץ מקורי עם פונטים לקובץ תמונה שעבר תהליך פענוח

אלף שין

@yits אין לי ספק שלא ניסת,
באותיות שלימות ומודרניות יש קרוב ל100%.

yits

@אלף-שין
פענוח לא עובד ב 100% הצלחה על פונטים מסוימים, גם לא תמיד מזוהה החלוקה של הטורים והקטעים.

אבל הנקדוה העיקרית אם הטקסט ללא פונטים מוטמעים אז הוא מוצג כתמונה
ואיכות ההדפסה כמובן יורדת.

אלף שין

@yits כתב בזיהוי ושינוי קידוד טקסט בקובץ PDF:

לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ

Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/

האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת

קישור לקובץ עם הבעיה המדוברת:

עשיתי OCR, הנה הדוגמא: 62916-sFile העתקה.pdf
[אגב, הגדרתי שישנה את התמונה, אפשר להגדיר שם שישאיר כתמונה הניתנת לחיפוש].

תחומים - פורום חרדי מקצועי

OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית