שיפור בINFIX וייצוא לוורד
-
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
@one1010 כתב בשיפור בINFIX וייצוא לוורד:
זה אמור לטפל בבעיה?
בג'יבריש זה יטפל, בבעיות אחרות לא (לא ברור לי מה זה "שיבוש מילים" ו"החלפת אותיות" האם זה בעיית קידוד או משהו אחר)
החלפת אותיות במקום ג נ במקום ב כ במקום ו ן וכן כיוצא בזה. שיבוש מילים נובע או מהחלפת אותיות או מהדבקת מילים יחד
@one1010 כתב בשיפור בINFIX וייצוא לוורד:
כאילו אחרי המיפוי אין הבדל בין התכונה הזו לתוכנה של רחמים?
אני לא יודע על איזה תוכנה של רחמים אתה מדבר ומה זה עושה
התוכנה שלו לOCR [ראיתי שהתפעלת ממנה כאן בפורום...]
-
אוקיי, סוף סוף הבנתי אותך
אתה מנסה לפתור בעיה אחרת, לזה לא יעזור infix, לא על זה מדובר שם
שם מדובר על קובץ עם תוכן טקסטואלי, ב-PDF זה מוצג נכון, אבל בהעתקה לתוכנה אחרת מקבלים ג'יבריש
אתה מדבר על קובץ עם תוכן תמונה, עשית OCR, וה-OCR לא הצליח. אין לי פתרון לזה חוץ מ-OCR יותר טוב. -
פורמט PDF הוא פורמט משוכלל,
קובץ יכול להכיל טקסט + גופנים מוטמעים. בצורה כזו לא כתוב בקובץ איזה פיקסלים לצבוע שחור ואיזה לצבוע לבן, אלא הוראות יותר כלליות "שים תו X במיקום X Y בגודל N עם פונט X", קובץ כזה אפשר להעתיק ממנו טקסט (על קובץ כזה דיברתי במקרה שהגופן לא מקודד בצורה נכונה ותו X בגופן נראה כאל"ף אבל בערכי יוניקוד הוא תו אחר לגמרי)
קובץ גם יכול להכיל תוכן תמונה שזה סתם מחרוזת ארוכה של ערכי בהירות של CMYK (או RGB) או ערכי בהירות של שחור/לבן של כל פיקסל בתמונה. בצורה כזו גם אם יש טקסט בתוך התמונה לא תוכל להעתיק אותו לקובץ אחר כי מבחינת קורא ה-PDF - שלא חונן במוח אנושי - זה רק פיקסלים
קובץ גם יכול להיות מורכב משני הסוגים ביחד
הפשטתי מאוד אבל זה הרעיוןתוכנת OCR נועד "לקרוא" טקסט מתוך תמונה, כלומר הוא יודע להמיר ערכי פיקסלים לערכי תווים. זה לא עובד בדיוק של 100%. הרבה מהתוכנות מכניסים שוב את הטקסט המזוהה לתוך הPDF כשכבה שקופה על גבי התמונה, כך אתה מקבל אשלייה שאתה יכול לבחור טקסט מתוך התמונה
מה גורם לקובץ PDF להיות טקסטואלי או תמונה?
קובץ שאתה יוצר מתוך תוכנה לעריכת טקסט כמו וורד יקבל תוכן "טקסטואלי"
קובץ מתוך סריקה או מתוך עורך תמונות, יקבל תוכן של תמונה -
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
מה גורם לקובץ PDF להיות טקסטואלי או תמונה?
קובץ שאתה יוצר מתוך תוכנה לעריכת טקסט כמו וורד יקבל תוכן "טקסטואלי"
קובץ מתוך סריקה או מתוך עורך תמונות, יקבל תוכן של תמונהתודה על ההסבר המלומד!
הקובץ המדובר לכאורה לפי ההגדרות שלך אמור להיות טקסטואלי כי הוא לא מגיע מסריקה אלא מסגירת עריכה.
בנוסף אני יכול להעתיק ממנו טקסטים ולערוך אותם בוורד.האם אני צודק? איך ניתן לוודאות את זה?
במידה ואני צודק הפתרון עדיין נמצא בתוכנת COR טובה או עניין של קידוד/בעיה אחרת? כך שלא יעזור לי אפילו תוכנת COR?? -
@one1010 קיבלתי את המייל
נראה שמדובר בקובץ מתוכנת תג
יש שם רק גופן אחד שמקודד בצורה לא נכונה (וילנא,בולד)
ראיתי שתיקון ב-infix לא שומר את התיקון בגוף ה-PDF אלא בקובץ תצורה של התוכנה , לפי מה שזכור לי, פעם זה כן היה מתקן בגוף ה-PDF
חוץ מקידוד לא נכון יש עוד אתגרים בהמרה לוורד. בהמרה המובנה של infix יצא לי הכל הפוך, זה מוזר כי בהמרה ל-html זה יצא טוב יחסית. אבל צריך לשלם להם כדי לקבל המרה בלי איקסים
הייבוא המובנה של וורד יוצא לא רע (אבל גם לא טוב...) -
-
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
@one1010 קיבלתי את המייל
נראה שמדובר בקובץ מתוכנת תגואוו, גם את זה אפשר לראות?! האם ניתן להמיר בחזרה לתג?
יש שם רק גופן אחד שמקודד בצורה לא נכונה (וילנא,בולד)
אז מדוע בINFIX היו לי עשרות אם לא מאות תיקונים?!
ראיתי שתיקון ב-infix לא שומר את התיקון בגוף ה-PDF אלא בקובץ תצורה של התוכנה , לפי מה שזכור לי, פעם זה כן היה מתקן בגוף ה-PDF
שזה אומר מבחינתי? מה אני צריך/יכול לעשות?
חוץ מקידוד לא נכון יש עוד אתגרים בהמרה לוורד. בהמרה המובנה של infix יצא לי הכל הפוך, זה מוזר כי בהמרה ל-html זה יצא טוב יחסית. אבל צריך לשלם להם כדי לקבל המרה בלי איקסים
- יש המרה מובנה לINFIX?
בהעתקה זה לא יוצא הפוך אבל הבעיות עדיין קיימות
הייבוא המובנה של וורד יוצא לא רע (אבל גם לא טוב...)
פחות קריטי לי המבנה. העיקר שהטקסט יהיה מושלם.
תודה רבה!!
- יש המרה מובנה לINFIX?
-
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
@one1010 כתב בשיפור בINFIX וייצוא לוורד:
החלפת אותיות במקום ג נ במקום ב כ במקום ו ן וכן כיוצא בזה
שיבושים של החלפת אותיות דומות קורה רק ב-OCR, עדיין לא ברור לי אם עשית OCR או לא, מדובר בקובץ עם תוכן טקסטואלי,
עשיתי פתיחה של הקובץ בוורד. זה נחשב OCR?
אתה לא אמור לעשות עליו OCR
גם לא יעזור?!
-
@one1010 כתב בשיפור בINFIX וייצוא לוורד:
ואוו, גם את זה אפשר לראות?!
לא, זה היה ניחוש מושכל...
האם ניתן להמיר בחזרה לתג?
לא
אז מדוע בINFIX היו לי עשרות אם לא מאות תיקונים?!
לפעמים זה קורה שגופן אחד מוכפל עשרות פעמים בקובץ, נראה לי שזה קורה אם מדבקים ביחד כמה PDF-ים
(אפשר לתקן את זה בתוכנה שעושה מיטוב PDF)שזה אומר מבחינתי?
שלא יעזור לשמור את הקובץ גם עם סימן מים, צריך לשלם להם כדי לייצא את התוצאה
יש המרה מובנה לINFIX?
כן. file->export
עשיתי פתיחה של הקובץ בוורד. זה נחשב OCR?
לא (אאל"ט, לפעמים וורד כן עושה OCR אם הוא מזהה צורך, אבל במקרה הזה פתחתי את הדף ששלחת לי בוורד וזה נפתח בלי OCR)
אתה לא אמור לעשות עליו OCR
גם לא יעזור?!
אולי זה יכול לעזור קצת, אבל זה גם יזיק כי זה פחות מדוייק מייצוא הטקסט המקורי
-
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
לפעמים זה קורה שגופן אחד מוכפל עשרות פעמים בקובץ, נראה לי שזה קורה אם מדבקים ביחד כמה PDF-ים
(אפשר לתקן את זה בתוכנה שעושה מיטוב PDF)השגתי INFIX 'חופשי' תוכל ללמד אותי בבקשה איך עושים את המיטוב PDF כדי לחסוך זמן?
-
@yossiz כתב בשיפור בINFIX וייצוא לוורד:
pdfxchange
ביצעתי את האמור.
למעט צימצום הגופנים הקיימים מ92 ל70 לא ראיתי שום התקדמות...במה יכול להיות שאני טועה?
עשיתי את השלבים הבאים:- פתיחת תוכנת INFIX
- ייבוא קובץ PDF
- מיפוי הגופנים ע"י בחירה בתפריט: טקסט-REMAP FONTS
- אני עובר גופן גופן ומתקן לפי הצורך.
- בסוף ההליך לוחץ OK
- שומר ע"י SAVE AS
- פותח את הקובץ PDF מעתיק הכל ומדביק בקובץ וורד [מדביק רק טקסט ללא עיצוב]
ועדיין מקבל שגיאות רבות...
משהו במה שעשיתי לא תקין?!אגב, כשאני מיצא לHTML חוץ מעשרות קבצים שנשמרים לי במחשב אני מקבל שגיאה בשלב מסויים. מה בזה אני לא עושה נכון?
כן מעניין אותי HTML כי זה נראה דווקא יחסית טוב. אבל יש XXXX למרות שהגירסה שלי מאוקטבת וכן הכל הפוך...אשמח ואודה מאד לעזרה!!
-
@one1010 כתב בשיפור בINFIX וייצוא לוורד:
שומר ע"י SAVE AS
זה לא יעזור כפי שכתבתי למעלה:
ראיתי שתיקון ב-infix לא שומר את התיקון בגוף ה-PDF אלא בקובץ תצורה של התוכנה , לפי מה שזכור לי, פעם זה כן היה מתקן בגוף ה-PDF
שזה אומר מבחינתי? מה אני צריך/יכול לעשות?
שלא יעזור לשמור את הקובץ גם עם סימן מים, צריך לשלם להם כדי לייצא את התוצאה
האפשרות היחידה עם תוכנה זו הוא לייצא מתוך התוכנה
יש המרה מובנה לINFIX?
כן. file->export