דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תכנות
  3. PHP | חילוץ טקסט בעברית מקובץ PDF

PHP | חילוץ טקסט בעברית מקובץ PDF

מתוזמן נעוץ נעול הועבר תכנות
41 פוסטים 4 כותבים 959 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • WWWW מנותק
    WWWW מנותק
    WWW
    השיב לyossiz ב נערך לאחרונה על ידי
    #18

    @yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

    וזה לא יזהה את הכיוון נכון.

    אז איך זה כן עובד?
    ולמה זה אוטומטית הופך את סדר התווים?

    WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

    תגובה 1 תגובה אחרונה
    0
    • yossizY מחובר
      yossizY מחובר
      yossiz
      כתב ב נערך לאחרונה על ידי
      #19

      @WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

      אז איך זה כן עובד?
      ולמה זה אוטומטית הופך את סדר התווים?

      לא כל כך הבנתי מה אתה שואל אבל אני אסביר יותר מה התכוונתי.
      מה זה אופציות אלו FRIBIDI_XXXX?
      זה קובע את כיוון הבסיס של הקטע. בטקסט דו כיווני יש תווים שאין להם אורינטציה כיוונית מובהקת והכיוון שלהם נקבע לפי כוון הבסיס של הקטע.
      FRIBIDI_RTL אומר לפונקציה שכיוון הבסיס הוא RTL.
      AUTO אומר לקבוע את הכיוון לפי התו הראשון בקטע שיש לו כיוון מובהק (לאפוקי פיסוק וכו').
      אופציית AUTO יכול לעבוד רק אם נותנים לפונקציה קטע שלם. אין הגיון לקבוע את הכיוון לכל שורה בפני עצמה לפי התו הראשון של השורה.
      מכיוון שאתה חייב לעבוד שורה שורה ולא בקטעים שלמים, (כי יש לך טקסט בסדר וויזואלי שזה מפוסק על ידי מעבר שורה, הבנת? אין לי כח להסביר יותר...) לכן אתה לא יכול להשתמש באופצית AUTO.
      חוץ מזה, בכללות לא מומלץ להשתמש באופציה האוטומטית אם יש לך דרך אחר לדעת את הכוון הנכון כי האוטומטי לא תמיד מזהה נכון. (ע"ע כווני הקטעים בפורום אתמול).

      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

      WWWW תגובה 1 תגובה אחרונה
      0
      • yossizY מחובר
        yossizY מחובר
        yossiz
        השיב לשואף ב נערך לאחרונה על ידי
        #20

        @שואף אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

        מה אתה עושה עם טורים?

        לכאורה טורים לא אמורים להיות בעיה כל כמה שהם מרונדרים ב-PDF בסדר נכון

        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

        תגובה 1 תגובה אחרונה
        1
        • WWWW מנותק
          WWWW מנותק
          WWW
          השיב לyossiz ב נערך לאחרונה על ידי
          #21

          @yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

          ולמה זה אוטומטית הופך את סדר התווים?

          לא כל כך הבנתי מה אתה שואל אבל אני אסביר יותר מה התכוונתי.

          יש לי תווים בסדר הפוך:
          םולש
          במקום
          שלום.

          והפונקציה הזאת מחזירה את התווים בסדר הנכון, האיך?

          WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

          yossizY תגובה 1 תגובה אחרונה
          0
          • yossizY מחובר
            yossizY מחובר
            yossiz
            השיב לWWW ב נערך לאחרונה על ידי
            #22

            @WWW עם איזה אופציה FRIBIDI_XXXX קראת לפונקציה?

            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

            WWWW תגובה 1 תגובה אחרונה
            0
            • WWWW מנותק
              WWWW מנותק
              WWW
              השיב לyossiz ב נערך לאחרונה על ידי
              #23

              @yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

              @WWW עם איזה אופציה FRIBIDI_XXXX קראת לפונקציה?

              בשניהם.
              רק שב LTR זה מחזיר: Hello !עולם ,
              וב RTL זה מחזיר: , עולם! Hello

              WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

              yossizY תגובה 1 תגובה אחרונה
              0
              • yossizY מחובר
                yossizY מחובר
                yossiz
                השיב לWWW ב נערך לאחרונה על ידי
                #24

                אני רואה שעשיתי טעות.
                חשבתי שבקטע RTL הפונקציה יביא סדר חזותי מימין לשמאל. למעשה לפי מה שאתה אומר זה מביא את הסדר משמאל לימין.

                יש דבר שאני לא מבין,
                @WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

                במקור זה מופיע כך:
                Hello !םלוע ,

                למה? זה לא סדר וויזואלי, אולי זה הסדר של הרינדור ב-PDF? אתה יכול להעלות את ה-PDF?

                📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                dovidD תגובה 1 תגובה אחרונה
                1
                • dovidD מנותק
                  dovidD מנותק
                  dovid ניהול
                  השיב לyossiz ב נערך לאחרונה על ידי dovid
                  #25

                  @yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

                  אולי זה הסדר של הרינדור ב-PDF?

                  זה בדיוק עיקר הבעיה עם קריאה של PDF, כנראה כל מיני צורות של ספריות שאחראיות לסגירה. לא יודע מה במקרה הזה, אבל עבדתי עם מסמכים (לועזית) שהטקסט היה מאונך וכל מיני טריקים הזויים. היה ממש קשה נורא לקחת אפילו שתי תוים אחד ליד השני ובזמנו הוצאתי לפי מיקום עם rectangles שעשיתי לפי השורות.

                  מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

                  בכל נושא אפשר ליצור קשר dovid@tchumim.com

                  WWWW תגובה 1 תגובה אחרונה
                  2
                  • WWWW מנותק
                    WWWW מנותק
                    WWW
                    השיב לdovid ב נערך לאחרונה על ידי
                    #26

                    @dovid @yossiz בסוף הסתדרתי ב"ה.
                    במקום להשתמש בספריה pdfparser.
                    התקנתי את pdftotext בלינוקס ומימשתי בעצמי פקודת shell אל /usr/bin/pdftotext.
                    וב"ה זה עובד טוב! בלי להפוך תווים וכו'.

                    עדיין יש קצת בעיות עם תווים בלתי מזוהים.

                    WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                    WWWW 2 תגובות תגובה אחרונה
                    1
                    • WWWW מנותק
                      WWWW מנותק
                      WWW
                      השיב לWWW ב נערך לאחרונה על ידי WWW
                      #27

                      @WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

                      עדיין יש קצת בעיות עם תווים בלתי מזוהים.

                      גם עם זה הסתדתי ב"ה, עם זה: https://stackoverflow.com/a/3466049

                      /**
                       * Removes invalid XML
                       *
                       * @access public
                       * @param string $value
                       * @return string
                       */
                      function stripInvalidXml($value)
                      {
                          $ret = "";
                          $current;// למחוק גורם לשגיאה.
                          if (empty($value)) 
                          {
                              return $ret;
                          }
                      
                          $length = strlen($value);
                          for ($i=0; $i < $length; $i++)
                          {
                              $current = ord($value{$i});
                              if (($current == 0x9) ||
                                  ($current == 0xA) ||
                                  ($current == 0xD) ||
                                  (($current >= 0x20) && ($current <= 0xD7FF)) ||
                                  (($current >= 0xE000) && ($current <= 0xFFFD)) ||
                                  (($current >= 0x10000) && ($current <= 0x10FFFF)))
                              {
                                  $ret .= chr($current);
                              }
                              else
                              {
                                  $ret .= " ";
                              }
                          }
                          return $ret;
                      }
                      

                      WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                      תגובה 1 תגובה אחרונה
                      1
                      • WWWW מנותק
                        WWWW מנותק
                        WWW
                        השיב לWWW ב נערך לאחרונה על ידי
                        #28

                        @WWW בינתיים מצאתי קובץ אחד שזה לא מוציא את רוב הטקטס.
                        מדובר בקובץ שנוצר ע"י וורד עם התוסף החינמי של חלון ומרכוז שורה אחרונה, ב2 טורים.
                        הוא מוציא רק את הכותרות.

                        WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                        yossizY תגובה 1 תגובה אחרונה
                        0
                        • yossizY מחובר
                          yossizY מחובר
                          yossiz
                          השיב לWWW ב נערך לאחרונה על ידי
                          #29

                          @WWW תוכל להעלות קובץ דוגמה?

                          📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                          WWWW תגובה 1 תגובה אחרונה
                          0
                          • WWWW מנותק
                            WWWW מנותק
                            WWW
                            השיב לyossiz ב נערך לאחרונה על ידי
                            #30

                            @yossiz לשלוח ל יוסי@xn--eeb0a.xn--9dbq2a ?

                            WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                            yossizY תגובה 1 תגובה אחרונה
                            0
                            • yossizY מחובר
                              yossizY מחובר
                              yossiz
                              השיב לWWW ב נערך לאחרונה על ידי
                              #31

                              @WWW אה, חשבתי שתוכל לעשות קובץ דוגמה בלי תוכן חסוי.
                              אם לא איכפת לך שאני אראה את הקובץ תוכל לשלוח לשם. יש לי גם כתובת מייל רגיל... yossizahn@gmail.com

                              📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                              WWWW תגובה 1 תגובה אחרונה
                              0
                              • WWWW מנותק
                                WWWW מנותק
                                WWW
                                השיב לyossiz ב נערך לאחרונה על ידי
                                #32

                                @yossiz שלחתי לשם, אשלח גם למיל הזה.

                                WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                                yossizY תגובה 1 תגובה אחרונה
                                1
                                • yossizY מחובר
                                  yossizY מחובר
                                  yossiz
                                  השיב לWWW ב נערך לאחרונה על ידי
                                  #33

                                  @WWW קיבלתי, זה בגלל הגופנים.

                                  📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                  WWWW תגובה 1 תגובה אחרונה
                                  1
                                  • WWWW מנותק
                                    WWWW מנותק
                                    WWW
                                    השיב לyossiz ב נערך לאחרונה על ידי
                                    #34

                                    @yossiz מעניין, זה לא גופן גוטמן סטנדרטי?

                                    WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                                    תגובה 1 תגובה אחרונה
                                    0
                                    • yossizY מחובר
                                      yossizY מחובר
                                      yossiz
                                      כתב ב נערך לאחרונה על ידי yossiz
                                      #35

                                      הגוטמן דרוגולין שיש לי מקודד נכון (וגם ב-PDF יוצא נכון), אבל ייתכן שיש גיגרסאות ישנות שלא מקודדים נכון.

                                      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                      WWWW תגובה 1 תגובה אחרונה
                                      1
                                      • WWWW מנותק
                                        WWWW מנותק
                                        WWW
                                        השיב לyossiz ב נערך לאחרונה על ידי
                                        #36

                                        @yossiz אתה לא חושב שזה יכול להיות כתוצאה מהמרה לא טובה ל- PDF ?

                                        WWW.netfree@gmail.com || קשבק! החזר כספי לבנק על רכישות באינטרנט || עונים על סקרים ומרוויחים כסף!

                                        תגובה 1 תגובה אחרונה
                                        0
                                        • yossizY מחובר
                                          yossizY מחובר
                                          yossiz
                                          כתב ב נערך לאחרונה על ידי
                                          #37

                                          @WWW צודק, עכשיו שאני בודק שוב, אני רואה שזה לא שזה מקודד לא נכון, אלא שזה לא מקודד בכלל. (אין ערך יוניקוד לתווים)

                                          📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                          WWWW 2 תגובות תגובה אחרונה
                                          1

                                          • 1
                                          • 2
                                          • 3
                                          בא תתחבר לדף היומי!
                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • דף הבית
                                          • קטגוריות
                                          • פוסטים אחרונים
                                          • משתמשים
                                          • חיפוש
                                          • חוקי הפורום