PHP | חילוץ טקסט בעברית מקובץ PDF

זה בדיוק עיקר הבעיה עם קריאה של PDF, כנראה כל מיני צורות של ספריות שאחראיות לסגירה. לא יודע מה במקרה הזה, אבל עבדתי עם מסמכים (לועזית) שהטקסט היה מאונך וכל מיני טריקים הזויים. היה ממש קשה נורא לקחת אפילו שתי תוים אחד ליד השני ובזמנו הוצאתי לפי מיקום עם rectangles שעשיתי לפי השורות.

WWW

@dovid @yossiz בסוף הסתדרתי ב"ה.
במקום להשתמש בספריה pdfparser.
התקנתי את pdftotext בלינוקס ומימשתי בעצמי פקודת shell אל /usr/bin/pdftotext.
וב"ה זה עובד טוב! בלי להפוך תווים וכו'.

עדיין יש קצת בעיות עם תווים בלתי מזוהים.

WWW

@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

עדיין יש קצת בעיות עם תווים בלתי מזוהים.

גם עם זה הסתדתי ב"ה, עם זה: https://stackoverflow.com/a/3466049

/**
 * Removes invalid XML
 *
 * @access public
 * @param string $value
 * @return string
 */
function stripInvalidXml($value)
{
    $ret = "";
    $current;// למחוק גורם לשגיאה.
    if (empty($value)) 
    {
        return $ret;
    }

    $length = strlen($value);
    for ($i=0; $i < $length; $i++)
    {
        $current = ord($value{$i});
        if (($current == 0x9) ||
            ($current == 0xA) ||
            ($current == 0xD) ||
            (($current >= 0x20) && ($current <= 0xD7FF)) ||
            (($current >= 0xE000) && ($current <= 0xFFFD)) ||
            (($current >= 0x10000) && ($current <= 0x10FFFF)))
        {
            $ret .= chr($current);
        }
        else
        {
            $ret .= " ";
        }
    }
    return $ret;
}

WWW

@WWW בינתיים מצאתי קובץ אחד שזה לא מוציא את רוב הטקטס.
מדובר בקובץ שנוצר ע"י וורד עם התוסף החינמי של חלון ומרכוז שורה אחרונה, ב2 טורים.
הוא מוציא רק את הכותרות.

yossiz

@WWW תוכל להעלות קובץ דוגמה?

WWW

@yossiz לשלוח ל יוסי@xn--eeb0a.xn--9dbq2a ?

yossiz

@WWW אה, חשבתי שתוכל לעשות קובץ דוגמה בלי תוכן חסוי.
אם לא איכפת לך שאני אראה את הקובץ תוכל לשלוח לשם. יש לי גם כתובת מייל רגיל... yossizahn@gmail.com

WWW

@yossiz שלחתי לשם, אשלח גם למיל הזה.

yossiz

@WWW קיבלתי, זה בגלל הגופנים.

WWW

@yossiz מעניין, זה לא גופן גוטמן סטנדרטי?

yossiz

הגוטמן דרוגולין שיש לי מקודד נכון (וגם ב-PDF יוצא נכון), אבל ייתכן שיש גיגרסאות ישנות שלא מקודדים נכון.

WWW

@yossiz אתה לא חושב שזה יכול להיות כתוצאה מהמרה לא טובה ל- PDF ?

yossiz

@WWW צודק, עכשיו שאני בודק שוב, אני רואה שזה לא שזה מקודד לא נכון, אלא שזה לא מקודד בכלל. (אין ערך יוניקוד לתווים)

WWW

@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:

(אין ערך יוניקוד לתווים)

רק?

yossiz

@WWW מספר גליף

WWW

@yossiz הבנתי.

תחומים - פורום חרדי מקצועי

PHP | חילוץ טקסט בעברית מקובץ PDF