דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תוכנה
  3. איך מעתיקים מ PDF ל Word

איך מעתיקים מ PDF ל Word

מתוזמן נעוץ נעול הועבר תוכנה
39 פוסטים 5 כותבים 4.8k צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • נתןנ מנותק
    נתןנ מנותק
    נתן
    כתב ב נערך לאחרונה על ידי נתן
    #1

    איך מעתיקים טקסט מ PDF ל Word, טקסט אם ניקוד.
    כשאני מעתיק לWord או לכל דבר אחר זה מדביק הכל גריביש' וסימנים מוזרים, יש דרך להתגבר על זה?

    yossizY תגובה 1 תגובה אחרונה
    0
    • yossizY מנותק
      yossizY מנותק
      yossiz
      השיב לנתן ב נערך לאחרונה על ידי yossiz
      #2

      @נתן אמר באיך מעתיקים מ PDF ל Word:

      יש דרך להתגבר על זה?

      לא בחינם. (למרות שאם אתה ממש מתעקש כמוני תצליח...). ראה בפוסט הבא

      תיאור הבעיה

      הבעיה היא שהגופנים לא מקודדים נכון.
      וביתר פירוט,
      בד"כ, דהיינו בפורמטים של קבצים שניתנים לעריכה, הטקסט של הקובץ מקודד כמספרים, (א=1488, ב=1499 וכו' זה ב-unicode, יש כמה קידודים, אבל הכי טוב הוא יוניקוד.)
      איך התוכנה יודעת איזה צורה להציג עבור כל מספר? המידע הזאת מקודד בגופן. כלומר, בתוך הגופן נמצא מפה שממפה את המספר 1488 לצורת האות א' וכו' על זה הדרך לכל התווים שהגופן תומך בהם.
      בפורמט PDF לעמות זאת, זה הולך הפוך, הטקסט מקודד כרצף של מזהי גליפים (גליפים=צורות שנמצאים בתוך הגופן) ולא במספרי תווים (זה מוודא שהתוכן יוצג נכון גם אם הגופן לא מקודד נכון). ואז כדי להעתיק את זה עבור תוכנות אחרות, קורא ה-PDF מנסה להמיר את זה חזרה למספרי תווים באמצעות המיפוי הנ"ל שבתוך הגופן (ב-PDF בד"כ הגופן מוטמע בתוך הקובץ, לא מדובר בגופן שמותקן במערכת).
      הבעיה היא שיש גופנים עם מיפוי לא תקני, ויש מייצרי PDF שלא מטמיעים את המיפוי הנכון.

      פתרונות

      בעבר ישבתי שעות על גבי שעות לנסות למצוא פתרון לבעיה.
      בעצם הפתרון אמור להיות תוכנה שיציג למשתמש את מפת התווים של כל הגופנים שמוטמעים ב-PDF והמשתמש יכניס את המיפוי הנכון שאותו התוכנה יטמיע בגופן.
      יש שתי רעיונות לשפר את השימוש בתוכנה (התיאורטית):

      • שבתוך התוכנה יהיו מוטמעים מפויים (לא תקניים) מצויים, והתוכנה יציע למשתמש להשתמש באחד מהמיפויים שכבר הוגדרו
      • שהתוכנה ינסה לזהות בעצמו את המיפוי הנכון על ידי OCR, ויישאר למשתמש רק לאמת את הזיהוי

      הבעיה היא שאין תוכנה כזאת בשוק שהוא בהישג יד כל אחד ואחד 😞
      דיברתי עם ABBYY שיוסיפו את זה לתוכנה שלהם (ABBYY FineReader), אבל אחרי הרבה הלוך ושוב, התמיכה המטומטמת שלהם עדיין לא הבינו מה אני רוצה מחייהם...

      יש אומנם שתי תוכנות שכן מציעים תכונה זאת:

      • infix -הבעיות הם א) זה רק בתשלום ב) פעם העבר שניסיתי אותה (בסוף 2017) התכונה הזאת לא עבדה 😞 (דיווחתי להם והם טענו שזה יתוקן - לא בדקתי שוב)
        0863a95a-0dac-453b-a3f6-c81921a07a99-image.png

      • axesPDF QuickFix
        ac20b622-0f79-422b-ba01-ddfbf6faba31-image.png
        זה תוכנה מצויינת אבל עולה הרבה 😞
        (אני פרצתי את התוכנה עבור עצמי וכך הצלחתי לתקן כמה PDF-ים משובשים... אבל זה לא להפצה)

      יש לי חלום של שנים לכתוב תוכנה כזאת אבל זה עדיין רק חלום...

      נראה לי שיש ל @רחמים עוד מה לתרום לנושא. (אתה נפגשת בבעיה הזאת בתוכנת החיפוש שלך, לא?)

      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

      WWWW תגובה 1 תגובה אחרונה
      6
      • yossizY מנותק
        yossizY מנותק
        yossiz
        כתב ב נערך לאחרונה על ידי yossiz
        #3

        עדכון: אחרי שכתבתי את כל המגילה הארוכה הנ"ל הורדתי שוב את הגירסה האחרונה של תוכנת infix לנסיון
        ואני רואה
        א) שהתכונה של מיפוי הגופנים עובדת! פלאי פלאים!
        ב) גם בגירסת הנסיון זה עובד בלי להוסיף סימן מים לקובץ!

        אני רואה שיש להם גם אופציה לתיקון אוטומטי באמצעות OCR, אבל זה עובד רק באנגלית 😞

        אם כן, זה הפתרון להוריד את גירסת הנסיון של infix.
        ואז בתפריט text > remap fonts לתקן את המיפוי, לאשר, ולשמור.

        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

        תגובה 1 תגובה אחרונה
        6
        • י מנותק
          י מנותק
          יוני
          כתב ב נערך לאחרונה על ידי יוני
          #4

          גילוי אדיר
          OCR לעברית עם ניקוד
          מעלים לגוגל דרייב>פתח באמצעות>GOOGLEDOCS
          קובץ רק עם משקל עד אולי 20 מגה יותר מזה לא עובד (לפחות אצלי)
          אם הקובץ הוא בעצם טקסט אז הוא לא עושה OCR אלא סתם מעתיק את הטקטס ואז יהיה לך אותה בעיה. לכן יש להפוך את ה PDF לתמונות בכדי שיבצע OCR ולא רק חילוץ טקטס. איך עושים זאת? עושים הדפסה עם מדפסת PDF שם לבחור (ב ADOBE) מתקדם>הדפסה כתמונה
          הקובץ שהוא מייצא בעצם איבד את הטקסט ונהיה תמונות ללא אפשרות העתקה. עכשיו תעלהו באוב אל גוגל דרייב פתח באמצעות גוגל דוקס
          ועי' גם פה, ופה

          וכמה זה עולה כל הסיפור הזה?
          0.0 ש"ח

          yossizY תגובה 1 תגובה אחרונה
          4
          • yossizY מנותק
            yossizY מנותק
            yossiz
            השיב ליוני ב נערך לאחרונה על ידי
            #5

            @יוני זה פתרון טוב לקובץ שחייב OCR, אבל הפתרון שלי הרבה יותר מדוייק (100% דיוק) עבור קובץ שיש לו רק בעיה של קידוד גופנים.

            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

            י נתןנ 2 תגובות תגובה אחרונה
            3
            • י מנותק
              י מנותק
              יוני
              השיב לyossiz ב נערך לאחרונה על ידי
              #6

              @yossiz אמר באיך מעתיקים מ PDF ל Word:

              @יוני זה פתרון טוב לקובץ שחייב OCR, אבל הפתרון שלי הרבה יותר מדוייק (100% דיוק) עבור קובץ שיש לו רק בעיה של קידוד גופנים.

              אני לא מבין לגמרי מה הכונה שיבוש בקידוד. תוכל להראות לי תמונת מסך של מסמך עם בעיה זו?

              yossizY תגובה 1 תגובה אחרונה
              1
              • נתןנ מנותק
                נתןנ מנותק
                נתן
                השיב לyossiz ב נערך לאחרונה על ידי
                #7

                @yossiz אמר באיך מעתיקים מ PDF ל Word:

                @יוני זה פתרון טוב לקובץ שחייב OCR, אבל הפתרון שלי הרבה יותר מדוייק (100% דיוק) עבור קובץ שיש לו רק בעיה של קידוד גופנים.

                איך אני מוריד את גירסת הנסיון של infix

                yossizY תגובה 1 תגובה אחרונה
                0
                • yossizY מנותק
                  yossizY מנותק
                  yossiz
                  השיב ליוני ב נערך לאחרונה על ידי yossiz
                  #8

                  @יוני אמר באיך מעתיקים מ PDF ל Word:

                  תוכל להראות לי תמונת מסך של מסמך עם בעיה זו

                  לא רואים כלום בצילום מסך:

                  6c700691-9925-490b-b7a9-060f50c305a1-image.png

                  אבל כאשר מעתיקים ומדביקים את הטקסט המסומן זה מה שמקבלים:

                  ÏÏÎ ˜¯Ù ¯Á‡ ˙·ÏÓ ˙·‡ È·‚ ˙Â˘Ï ÂÏ ‰È‰ [‡]
                  .ÛÂÒ·Ï ‰‡ˆÂ‰ È˙˜Â 'ÂΠÈ˙˜ Ì˙‰„ ÔÓ˜Ï Ï„‚
                  

                  📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                  י תגובה 1 תגובה אחרונה
                  1
                  • yossizY מנותק
                    yossizY מנותק
                    yossiz
                    השיב לנתן ב נערך לאחרונה על ידי
                    #9

                    @נתן
                    https://www.iceni.com/infix_download.htm

                    📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                    תגובה 1 תגובה אחרונה
                    1
                    • י מנותק
                      י מנותק
                      יוני
                      השיב לyossiz ב נערך לאחרונה על ידי
                      #10

                      @yossiz אמר באיך מעתיקים מ PDF ל Word:

                      @יוני אמר באיך מעתיקים מ PDF ל Word:

                      תוכל להראות לי תמונת מסך של מסמך עם בעיה זו

                      לא רואים כלום בצילום מסך:

                      6c700691-9925-490b-b7a9-060f50c305a1-image.png

                      אבל כאשר מעתיקים ומדביקים את הטקסט המסומן זה מה שמקבלים:

                      ÏÏÎ ˜¯Ù ¯Á‡ ˙·ÏÓ ˙·‡ È·‚ ˙Â˘Ï ÂÏ ‰È‰ [‡]
                      .ÛÂÒ·Ï ‰‡ˆÂ‰ È˙˜Â 'ÂΠÈ˙˜ Ì˙‰„ ÔÓ˜Ï Ï„‚
                      

                      הבנתי, זה מצוי שמעתיקים מPDF שנסגר בתג למשל.
                      אז מה עושים

                      yossizY תגובה 1 תגובה אחרונה
                      1
                      • yossizY מנותק
                        yossizY מנותק
                        yossiz
                        השיב ליוני ב נערך לאחרונה על ידי
                        #11

                        @יוני נכון, ה-PDF הנ"ל נסגר בתג.

                        אז מה עושים

                        תקרא את הפתרון שכתבתי למעלה באמצעות תוכנת infix

                        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                        י תגובה 1 תגובה אחרונה
                        1
                        • י מנותק
                          י מנותק
                          יוני
                          השיב לyossiz ב נערך לאחרונה על ידי
                          #12

                          @yossiz אמר באיך מעתיקים מ PDF ל Word:

                          @יוני נכון, ה-PDF הנ"ל נסגר בתג.

                          אז מה עושים

                          תקרא את הפתרון שכתבתי למעלה באמצעות תוכנת infix

                          הבנתי בגדול אבל באופן מעשי האם אני אצטרך לעבור על כל האותיות ולשנות אותם לאות הנכון או שהתוכנה מזהה בעצמה?

                          yossizY תגובה 1 תגובה אחרונה
                          1
                          • yossizY מנותק
                            yossizY מנותק
                            yossiz
                            השיב ליוני ב נערך לאחרונה על ידי yossiz
                            #13

                            @יוני הבאתי תמונה למעלה של התוכנה.
                            התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
                            זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.

                            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                            י 2 תגובות תגובה אחרונה
                            2
                            • י מנותק
                              י מנותק
                              יוני
                              השיב לyossiz ב נערך לאחרונה על ידי
                              #14

                              @yossiz אמר באיך מעתיקים מ PDF ל Word:

                              @יוני הבאתי תמונה למעלה של התוכנה.
                              התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
                              זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.

                              הבנתי. למעשה אני לא אראה שום שינוי במסמך כי הרי שהוא מציג אותה זה נראה מצוין רק בהעתקה יש בעיה?

                              yossizY תגובה 1 תגובה אחרונה
                              1
                              • yossizY מנותק
                                yossizY מנותק
                                yossiz
                                השיב ליוני ב נערך לאחרונה על ידי
                                #15

                                @יוני נכון

                                📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                נתןנ תגובה 1 תגובה אחרונה
                                1
                                • נתןנ מנותק
                                  נתןנ מנותק
                                  נתן
                                  השיב לyossiz ב נערך לאחרונה על ידי
                                  #16

                                  @yossiz תודה אלופים

                                  תגובה 1 תגובה אחרונה
                                  0
                                  • י מנותק
                                    י מנותק
                                    יוני
                                    השיב לyossiz ב נערך לאחרונה על ידי
                                    #17

                                    @yossiz אמר באיך מעתיקים מ PDF ל Word:

                                    @יוני הבאתי תמונה למעלה של התוכנה.
                                    התוכנה מביאה לך רשימה של כל הגופנים שיש בקובץ, ולכל גופן הוא מראה לך מפה של כל התווים, אתה עובר עליהם אחד אחד ומכניס את התו הנכון.
                                    זה לוקח 2 דקות. וזה מתקן את כל הקובץ, לא משנה מה גודל הקובץ.

                                    אבל בשמירה הוא מאיים שהוא יעשה סימון מים ברקע
                                    חוץ מזה גם לפני שמירת הקובץ אני לא מצליח לסמן טקסט להעתקה גם שאני לא לוחץ על ה T שמאפשר לבחור טקסט. הוא רק מסמן לי אות אחת בודדת מבלי אפשרות לבחור אות נוספת

                                    תגובה 1 תגובה אחרונה
                                    1
                                    • י מנותק
                                      י מנותק
                                      יוני
                                      כתב ב נערך לאחרונה על ידי
                                      #18

                                      2020-01-13_121852.png

                                      תגובה 1 תגובה אחרונה
                                      1
                                      • yossizY מנותק
                                        yossizY מנותק
                                        yossiz
                                        כתב ב נערך לאחרונה על ידי
                                        #19

                                        @יוני תתעלם מהכל, תבחר Save With Watermark. אח"כ תפתח אותו בתוכנת PDF נורמלית.
                                        מנסיון שלי על אף שהוא מאיים על סימן מים זה איום ריק... (כנראה שסימן המים מופיע רק אם ערכת את ה-PDF ומיפוי תווים לא מזוהה כעריכה).

                                        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                        י תגובה 1 תגובה אחרונה
                                        2
                                        • י מנותק
                                          י מנותק
                                          יוני
                                          השיב לyossiz ב נערך לאחרונה על ידי
                                          #20

                                          @yossiz אמר באיך מעתיקים מ PDF ל Word:

                                          @יוני תתעלם מהכל, תבחר Save With Watermark. אח"כ תפתח אותו בתוכנת PDF נורמלית.
                                          מנסיון שלי על אף שהוא מאיים על סימן מים זה איום ריק... (כנראה שסימן המים מופיע רק אם ערכת את ה-PDF ומיפוי תווים לא מזוהה כעריכה).

                                          חוץ מזה עכשיו אני רואה שסימון מים עשו בצורה טיפשית (סליחה על המילה) כי זה רק מוסיף למטה תוספת עם לוגו שלהם ואפשר בקלי קלות לקצץ את זה
                                          תראה דוגמא
                                          י.pdf

                                          תגובה 1 תגובה אחרונה
                                          0

                                          • 1
                                          • 2
                                          בא תתחבר לדף היומי!
                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • דף הבית
                                          • קטגוריות
                                          • פוסטים אחרונים
                                          • משתמשים
                                          • חיפוש
                                          • חוקי הפורום