PHP | חילוץ טקסט בעברית מקובץ PDF
-
@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
יש לה אופציה לדגל FRIBIDI_AUTO במקום RTL, ככה שזה אמור להיות אוטומטי (זה לא מושלם בכלל).
אל תשתמש באופציית FRIBIDI_AUTO. זה טוב רק בכיוון של לוגי לוויזואלי, אבל בכיוון ההפוך אתה מוסר לפונקציה שורות - לא קטעים שלמים, וזה לא יזהה את הכיוון נכון. (חוץ מזה שזה לא תמיד מזהה את הכיוון הנכון.)
-
@שואף אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
מה אתה עושה עם טורים?
אני משתמש בpdfparser לחילוץ הטקסט.
והטורים לא בדקתי.
אבל זה לא כ"כ מעניין אותי, כי אני צריך תמיכה ברוב הקבצים, ולא בכל. -
@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
וזה לא יזהה את הכיוון נכון.
אז איך זה כן עובד?
ולמה זה אוטומטית הופך את סדר התווים? -
@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
אז איך זה כן עובד?
ולמה זה אוטומטית הופך את סדר התווים?לא כל כך הבנתי מה אתה שואל אבל אני אסביר יותר מה התכוונתי.
מה זה אופציות אלו FRIBIDI_XXXX?
זה קובע את כיוון הבסיס של הקטע. בטקסט דו כיווני יש תווים שאין להם אורינטציה כיוונית מובהקת והכיוון שלהם נקבע לפי כוון הבסיס של הקטע.
FRIBIDI_RTL אומר לפונקציה שכיוון הבסיס הוא RTL.
AUTO אומר לקבוע את הכיוון לפי התו הראשון בקטע שיש לו כיוון מובהק (לאפוקי פיסוק וכו').
אופציית AUTO יכול לעבוד רק אם נותנים לפונקציה קטע שלם. אין הגיון לקבוע את הכיוון לכל שורה בפני עצמה לפי התו הראשון של השורה.
מכיוון שאתה חייב לעבוד שורה שורה ולא בקטעים שלמים, (כי יש לך טקסט בסדר וויזואלי שזה מפוסק על ידי מעבר שורה, הבנת? אין לי כח להסביר יותר...) לכן אתה לא יכול להשתמש באופצית AUTO.
חוץ מזה, בכללות לא מומלץ להשתמש באופציה האוטומטית אם יש לך דרך אחר לדעת את הכוון הנכון כי האוטומטי לא תמיד מזהה נכון. (ע"ע כווני הקטעים בפורום אתמול). -
@שואף אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
מה אתה עושה עם טורים?
לכאורה טורים לא אמורים להיות בעיה כל כמה שהם מרונדרים ב-PDF בסדר נכון
-
@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
ולמה זה אוטומטית הופך את סדר התווים?
לא כל כך הבנתי מה אתה שואל אבל אני אסביר יותר מה התכוונתי.
יש לי תווים בסדר הפוך:
םולש
במקום
שלום.והפונקציה הזאת מחזירה את התווים בסדר הנכון, האיך?
-
@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
@WWW עם איזה אופציה FRIBIDI_XXXX קראת לפונקציה?
בשניהם.
רק שב LTR זה מחזיר: Hello !עולם ,
וב RTL זה מחזיר: , עולם! Hello -
אני רואה שעשיתי טעות.
חשבתי שבקטע RTL הפונקציה יביא סדר חזותי מימין לשמאל. למעשה לפי מה שאתה אומר זה מביא את הסדר משמאל לימין.יש דבר שאני לא מבין,
@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:במקור זה מופיע כך:
Hello !םלוע ,למה? זה לא סדר וויזואלי, אולי זה הסדר של הרינדור ב-PDF? אתה יכול להעלות את ה-PDF?
-
@yossiz אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
אולי זה הסדר של הרינדור ב-PDF?
זה בדיוק עיקר הבעיה עם קריאה של PDF, כנראה כל מיני צורות של ספריות שאחראיות לסגירה. לא יודע מה במקרה הזה, אבל עבדתי עם מסמכים (לועזית) שהטקסט היה מאונך וכל מיני טריקים הזויים. היה ממש קשה נורא לקחת אפילו שתי תוים אחד ליד השני ובזמנו הוצאתי לפי מיקום עם rectangles שעשיתי לפי השורות.
-
@WWW אמר בPHP | חילוץ טקסט בעברית מקובץ PDF:
עדיין יש קצת בעיות עם תווים בלתי מזוהים.
גם עם זה הסתדתי ב"ה, עם זה: https://stackoverflow.com/a/3466049
/** * Removes invalid XML * * @access public * @param string $value * @return string */ function stripInvalidXml($value) { $ret = ""; $current;// למחוק גורם לשגיאה. if (empty($value)) { return $ret; } $length = strlen($value); for ($i=0; $i < $length; $i++) { $current = ord($value{$i}); if (($current == 0x9) || ($current == 0xA) || ($current == 0xD) || (($current >= 0x20) && ($current <= 0xD7FF)) || (($current >= 0xE000) && ($current <= 0xFFFD)) || (($current >= 0x10000) && ($current <= 0x10FFFF))) { $ret .= chr($current); } else { $ret .= " "; } } return $ret; }
-
@WWW אה, חשבתי שתוכל לעשות קובץ דוגמה בלי תוכן חסוי.
אם לא איכפת לך שאני אראה את הקובץ תוכל לשלוח לשם. יש לי גם כתובת מייל רגיל... yossizahn@gmail.com
23/41