זיהוי ושינוי קידוד טקסט בקובץ PDF
-
יש לי קבצי PDF שלא ניתן לעשות בהם חיפוש למרות שהקובץ נסגר עם פונטים מוטמעים,
הבעיה היא דווקא בפונטים עבריים ואולי בגלל שזה נסגר בתוכנות אדובי במחשב mac.לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ
Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/
האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת
-
@yits כבר שנים על גבי שנים שיש לי מחשבה לכתוב תוכנה לסדר קבצים כאלו
זה בטח אפשרי באמצעות קוד אבל זה לא ענין של שתי שורותאני מכיר שתי תוכנות קיימות שיודעים לסדר את זה אבל שניהם בתשלום
א) https://www.iceni.com/infix.htm
בגירסת הנסיון הוא מוסיף סימן מים
כתבתי פעם סקריפט להסרת סימן המים
ב) https://www.axes4.com/en/software-services/axespdf
זה כלי יקר ובגירסת הנסיון הוא צובע חלקים אקראיים של ה-PDF בירוק, קשה מאוד לתקן את זה על ידי סקריפט
(הצלחתי לעקוף את זה על ידי ריצה באמצעות דיבאגר ועקיפת בדיקת הרשיון אבל זה לא שווה לכל נפש...)בשתי התוכנות צריך לסדר את זה ידנית, להגיד לתוכנה על כל אות של כל פונט מה הוא
עקרונית היה אפשר להוסיף אוטומציה חלקית -
@dovid במקרה הזה לא הייתי ממליץ לשלם על התוכנות. שניהם לא מספיק כדאיים. שניהם במינוי חודשי/שנתי והמענה שהם נותנים לא מושלם, זה עדיין מצריך עבודה ידנית (התכונה הזאת הוא רק חלק שולי מהתוכנה)
axesPDF הוא בתשלום של 650 דולר לשנה - מן הסתם לא בא בחשבון
infix במחיר יותר הגיוני של 9.99 דולר לחודש - זה יכול להיות כדאי לצורך חד פעמי. לא כדאי לשלם מינוי תמידי רק עבור תכונה זו. (מה עוד שהבאתי כלי להסיר את סימן המים של גירסת הנסיון) -
@yossiz כתב בזיהוי ושינוי קידוד טקסט בקובץ PDF:
@yits כבר שנים על גבי שנים שיש לי מחשבה לכתוב תוכנה לסדר קבצים כאלו
זה בטח אפשרי באמצעות קוד אבל זה לא ענין של שתי שורותניסיתי קצת לחקור את המבנה של קבצי PDF בשביל לתקן את הבעיה,
לפי מה שנראה לי הבעיה נמצאת בפונטים המוטמעים שהם מצביעים על מס' אקסדצימלי שגוי
אולי אני טועה.לכן חשבתי שצריך לבנות קובץ שמחלץ את הפונטים האלו ומבצע החלפה לפי מפת תווים אחרת
-