איך מעתיקים מ PDF ל Word
-
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני אמר באיך מעתיקים מ PDF ל Word:
תוכל להראות לי תמונת מסך של מסמך עם בעיה זו
לא רואים כלום בצילום מסך:
אבל כאשר מעתיקים ומדביקים את הטקסט המסומן זה מה שמקבלים:
ÏÏÎ ˜¯Ù ¯Á‡ ˙·ÏÓ ˙·‡ È·‚ ˙Â˘Ï ÂÏ ‰È‰ [‡] .ÛÂÒ·Ï ‰‡ˆÂ‰ È˙˜Â 'ÂΠÈ˙˜ Ì˙‰„ ÔÓ˜Ï Ï„‚
הבנתי, זה מצוי שמעתיקים מPDF שנסגר בתג למשל.
אז מה עושים -
-
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני נכון, ה-PDF הנ"ל נסגר בתג.
אז מה עושים
תקרא את הפתרון שכתבתי למעלה באמצעות תוכנת infix
הבנתי בגדול אבל באופן מעשי האם אני אצטרך לעבור על כל האותיות ולשנות אותם לאות הנכון או שהתוכנה מזהה בעצמה?
-
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני הבאתי תמונה למעלה של התוכנה.
התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.הבנתי. למעשה אני לא אראה שום שינוי במסמך כי הרי שהוא מציג אותה זה נראה מצוין רק בהעתקה יש בעיה?
-
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני הבאתי תמונה למעלה של התוכנה.
התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.הבנתי. למעשה אני לא אראה שום שינוי במסמך כי הרי שהוא מציג אותה זה נראה מצוין רק בהעתקה יש בעיה?
-
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני הבאתי תמונה למעלה של התוכנה.
התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.אבל בשמירה הוא מאיים שהוא יעשה סימון מים ברקע
חוץ מזה גם לפני שמירת הקובץ אני לא מצליח לסמן טקסט להעתקה גם שאני לא לוחץ על ה T שמאפשר לבחור טקסט. הוא רק מסמן לי אות אחת בודדת מבלי אפשרות לבחור אות נוספת -
@יוני תתעלם מהכל, תבחר Save With Watermark. אח"כ תפתח אותו בתוכנת PDF נורמלית.
מנסיון שלי על אף שהוא מאיים על סימן מים זה איום ריק... (כנראה שסימן המים מופיע רק אם ערכת את ה-PDF ומיפוי תווים לא מזוהה כעריכה).@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני תתעלם מהכל, תבחר Save With Watermark. אח"כ תפתח אותו בתוכנת PDF נורמלית.
מנסיון שלי על אף שהוא מאיים על סימן מים זה איום ריק... (כנראה שסימן המים מופיע רק אם ערכת את ה-PDF ומיפוי תווים לא מזוהה כעריכה).חוץ מזה עכשיו אני רואה שסימון מים עשו בצורה טיפשית (סליחה על המילה) כי זה רק מוסיף למטה תוספת עם לוגו שלהם ואפשר בקלי קלות לקצץ את זה
תראה דוגמא
י.pdf -
@נתן אמר באיך מעתיקים מ PDF ל Word:
הפתרון של @יוני הרבה יותר פשוט ונוח לפי דעתי. עשיתי על ספר 300 עמודים וזה עובד להפליא משא"כ בתוכנה ש @yossiz הביא זה הרבה עבודה לסדר את המיפוי אבל יתכן שהוא יותר מדויק!?
אבל אל תאמין לדרייב, יש לו הרבה שיבושים בפענוח הניקוד - תבדוק אחריו!
-
@yossiz אבל משום מה זה לא הצליח לתקן את המסמך שעליו ניסתי
בעיקר שינתי את האות ה
יש עוד אותיות שתיקנתי אבל לא בכל הגופנים. את אות ה שינתי בכולם ואעפ"כ עדיין מעתיק לי משובש
1551545.pdf
מה לא עשיתי טוב -
@יוני הנה הקובץ אחרי עריכה בתוכנת axesPDF
1578911599848-1551545 (3).pdf@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני הנה הקובץ אחרי עריכה בתוכנת axesPDF
1578911599848-1551545 (3).pdfיפה מאד
אבל מה אנו נעשה שהתוכנה לא נותנת רק עם רשיון
האם אין עוד תוכנות בשוק (חינמיות)? -
@yossiz אמר באיך מעתיקים מ PDF ל Word:
@יוני הנה הקובץ אחרי עריכה בתוכנת axesPDF
1578911599848-1551545 (3).pdfיפה מאד
אבל מה אנו נעשה שהתוכנה לא נותנת רק עם רשיון
האם אין עוד תוכנות בשוק (חינמיות)? -
@יוני אמר באיך מעתיקים מ PDF ל Word:
אבל מה אנו נעשה שהתוכנה לא נותנת רק עם רשיון
יש כאן את התוכנה בפרוץ
@לחיל-אומר אמר באיך מעתיקים מ PDF ל Word:
@יוני אמר באיך מעתיקים מ PDF ל Word:
אבל מה אנו נעשה שהתוכנה לא נותנת רק עם רשיון
יש כאן את התוכנה בפרוץ
אבל היא לא תמיד מתקנת עי' לעיל
צריכים את זה axesPDF QuickFix -
@נתן אמר באיך מעתיקים מ PDF ל Word:
יש דרך להתגבר על זה?
לא בחינם. (למרות שאם אתה ממש מתעקש כמוני תצליח...).ראה בפוסט הבאתיאור הבעיה
הבעיה היא שהגופנים לא מקודדים נכון.
וביתר פירוט,
בד"כ, דהיינו בפורמטים של קבצים שניתנים לעריכה, הטקסט של הקובץ מקודד כמספרים, (א=1488, ב=1499 וכו' זה ב-unicode, יש כמה קידודים, אבל הכי טוב הוא יוניקוד.)
איך התוכנה יודעת איזה צורה להציג עבור כל מספר? המידע הזאת מקודד בגופן. כלומר, בתוך הגופן נמצא מפה שממפה את המספר 1488 לצורת האות א' וכו' על זה הדרך לכל התווים שהגופן תומך בהם.
בפורמט PDF לעמות זאת, זה הולך הפוך, הטקסט מקודד כרצף של מזהי גליפים (גליפים=צורות שנמצאים בתוך הגופן) ולא במספרי תווים (זה מוודא שהתוכן יוצג נכון גם אם הגופן לא מקודד נכון). ואז כדי להעתיק את זה עבור תוכנות אחרות, קורא ה-PDF מנסה להמיר את זה חזרה למספרי תווים באמצעות המיפוי הנ"ל שבתוך הגופן (ב-PDF בד"כ הגופן מוטמע בתוך הקובץ, לא מדובר בגופן שמותקן במערכת).
הבעיה היא שיש גופנים עם מיפוי לא תקני, ויש מייצרי PDF שלא מטמיעים את המיפוי הנכון.פתרונות
בעבר ישבתי שעות על גבי שעות לנסות למצוא פתרון לבעיה.
בעצם הפתרון אמור להיות תוכנה שיציג למשתמש את מפת התווים של כל הגופנים שמוטמעים ב-PDF והמשתמש יכניס את המיפוי הנכון שאותו התוכנה יטמיע בגופן.
יש שתי רעיונות לשפר את השימוש בתוכנה (התיאורטית):- שבתוך התוכנה יהיו מוטמעים מפויים (לא תקניים) מצויים, והתוכנה יציע למשתמש להשתמש באחד מהמיפויים שכבר הוגדרו
- שהתוכנה ינסה לזהות בעצמו את המיפוי הנכון על ידי OCR, ויישאר למשתמש רק לאמת את הזיהוי
הבעיה היא שאין תוכנה כזאת בשוק שהוא בהישג יד כל אחד ואחד
דיברתי עם ABBYY שיוסיפו את זה לתוכנה שלהם (ABBYY FineReader), אבל אחרי הרבה הלוך ושוב, התמיכה המטומטמת שלהם עדיין לא הבינו מה אני רוצה מחייהם...יש אומנם שתי תוכנות שכן מציעים תכונה זאת:
-
infix -הבעיות הם א) זה רק בתשלום ב) פעם העבר שניסיתי אותה (בסוף 2017) התכונה הזאת לא עבדה
(דיווחתי להם והם טענו שזה יתוקן - לא בדקתי שוב)
-
axesPDF QuickFix
זה תוכנה מצויינת אבל עולה הרבה
(אני פרצתי את התוכנה עבור עצמי וכך הצלחתי לתקן כמה PDF-ים משובשים... אבל זה לא להפצה)
יש לי חלום של שנים לכתוב תוכנה כזאת אבל זה עדיין רק חלום...
נראה לי שיש ל @רחמים עוד מה לתרום לנושא. (אתה נפגשת בבעיה הזאת בתוכנת החיפוש שלך, לא?)