PHP | חילוץ טקסט בעברית מקובץ PDF
-
@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
עדיין יש קצת בעיות עם תווים בלתי מזוהים.
גם עם זה הסתדתי ב"ה, עם זה: https://stackoverflow.com/a/3466049
/** * Removes invalid XML * * @access public * @param string $value * @return string */ function stripInvalidXml($value) { $ret = ""; $current;// למחוק גורם לשגיאה. if (empty($value)) { return $ret; } $length = strlen($value); for ($i=0; $i < $length; $i++) { $current = ord($value{$i}); if (($current == 0x9) || ($current == 0xA) || ($current == 0xD) || (($current >= 0x20) && ($current <= 0xD7FF)) || (($current >= 0xE000) && ($current <= 0xFFFD)) || (($current >= 0x10000) && ($current <= 0x10FFFF))) { $ret .= chr($current); } else { $ret .= " "; } } return $ret; }
-
-
@WWW בינתיים מצאתי קובץ אחד שזה לא מוציא את רוב הטקטס.
מדובר בקובץ שנוצר ע"י וורד עם התוסף החינמי של חלון ומרכוז שורה אחרונה, ב2 טורים.
הוא מוציא רק את הכותרות. -
@WWW אה, חשבתי שתוכל לעשות קובץ דוגמה בלי תוכן חסוי.
אם לא איכפת לך שאני אראה את הקובץ תוכל לשלוח לשם. יש לי גם כתובת מייל רגיל... yossizahn@gmail.com -
הגוטמן דרוגולין שיש לי מקודד נכון (וגם ב-PDF יוצא נכון), אבל ייתכן שיש גיגרסאות ישנות שלא מקודדים נכון.
-
@WWW צודק, עכשיו שאני בודק שוב, אני רואה שזה לא שזה מקודד לא נכון, אלא שזה לא מקודד בכלל. (אין ערך יוניקוד לתווים)
-
-
@WWW צודק, עכשיו שאני בודק שוב, אני רואה שזה לא שזה מקודד לא נכון, אלא שזה לא מקודד בכלל. (אין ערך יוניקוד לתווים)
@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
@WWW צודק, עכשיו שאני בודק שוב, אני רואה שזה לא שזה מקודד לא נכון, אלא שזה לא מקודד בכלל. (אין ערך יוניקוד לתווים)
צודק.
בדקתי עכשיו בחיפוש באקרובט (וגם בתוכנה 'שלך'...) הוא לא מצליח למצוא כלום בקובץ רק בכותרות... -
Y yossiz התייחס לנושא זה ב