OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית
-
יש לי קבצי PDF שלא ניתן לעשות בהם חיפוש למרות שהקובץ נסגר עם פונטים מוטמעים,
הבעיה היא דווקא בפונטים עבריים ואולי בגלל שזה נסגר בתוכנות אדובי במחשב mac.לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ
Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/
האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת
-
יש לי קבצי PDF שלא ניתן לעשות בהם חיפוש למרות שהקובץ נסגר עם פונטים מוטמעים,
הבעיה היא דווקא בפונטים עבריים ואולי בגלל שזה נסגר בתוכנות אדובי במחשב mac.לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ
Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/
האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת
@yits כתב בזיהוי ושינוי קידוד טקסט בקובץ PDF:
לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ
Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת
קישור לקובץ עם הבעיה המדוברת:
עשיתי OCR, הנה הדוגמא: 62916-sFile העתקה.pdf
[אגב, הגדרתי שישנה את התמונה, אפשר להגדיר שם שישאיר כתמונה הניתנת לחיפוש].