תוכנה לזיהוי טקסט בעברית (OCR)
-
@yossiz @בערל התוכנה שלי מביאה אחוזי דיוק הרבה יותר טובים FineReader ו tesseract
וזאת מכמה סיבות:- התוכנה מותאמת לפיענוח OCR של כל שפה, אבל עם התאמות ושיפורים מיוחדים עבור עברית, בין בכתב מרובע ובין בכתב רשי.
- ניתן ללמד ולאמן את התוכנה ולבנות מילון מותאם אישית, דבר המשפר מאוד את דיוק הפיענוח. ובשונה מתוכנות אחרות שגם כאשר מלמדים אותן, הן עדיין ממשיכות לנחש ולא נותנות שליטה מלאה. [וכמו שכתב @yossiz שאין שיפור משמעותי]
וראה את המדריכים כאן, יש המון המלצות חמות לתוכנה, והמון לקוחות מרוצים.
-
מישהו שמשתמש בשני התוכנות טען לי שהעבודה נוחה בהרבה עם FineReader בבחינת ממשק וכדומה. בלי לימוד, FineReader נותן תוצאות טובות יותר מהתוכנה של רחמים. אבל בספרים עם הרבה טקסט במצב לא טוב עדיף של רחמים וזה ממש מוצלח אחרי שמלמדים את התוכנה (שזה כמובן לוקח זמן).
-
@shraga אני אסביר יותר כדי שהעיניין יובן מכל הכיוונים:
-
פיין רידר מגיע עם מילון מובנה רחב, שהכינו אותו מראש עבור כל טקסט שרק יהיה. ובגלל זה, מצד אחד הוא מפענח הרבה דברים, אבל מצד שני, מה שהוא לא מצליח להגיע לרמה המספיקה, אי אפשר לשפר אותו, אולי רק מעט וכמו שציין @yossiz . וממילא יוצא שצריך לתקן את כל השגיאות ידנית, ואפילו אם הוא קבוע מתבלבל במשהו צריך לשבת ולתקן הכל בכל הדפים.
-
אבל התוכנה שלי בנויה עם כיון מחשבה קצת אחר, היא מגיעה עם מילון בסיסי, הכולל בתוכו כמה עשרות גופנים מצויים, של כתב מרובע וגם של כתב רשי, ואיתו אפשר לפענח במדוייק טקסטים בסריקה איכותית. אבל כאשר יש ספר עם גופן חדש ולא מוכר או כתב ישן, המילון הבסיסי לא מספיק, ויש לבנות מילון לאותו גופן, ואפשר להשתמש במילון לכמה וכמה ספרים.
-
בניית המילון לוקחת רבע שעה עד עשרים דקות בלבד. ומיד מתחילים לפענח, וכאשר עוברים על הפיענוח כדי לתקן את שגיאות האיות וכדומה, כל תיקון נכנס למילון, והפיענוח של הדף הבא כבר יותר מדוייק. דהיינו שלא צריך לשבת ולבנות מילון, אלא זה קורה תוך כדי התיקונים בפיענוח, שזה דבר שבכל מקרה צריך לעשות בכל תוכנה.
-
יש עוד נקודה חשובה, כיון שפיין רידר בא עם מילון גדול, גם טקסטים בסריקה איכותית, יש לו הרבה פעמים שגיאות, כי המילון שלו מכיל גם כתב רשי וגם כתב מרובע וזה סותר את זה. אבל אצלי, בונים מילון לאותו ספר ואפשר לקבל פיענוח עם 100 אחוז דיוק.
לסיכום:
פייר רידר מתאים למי שמחפש פיענוח מהיר בלי התעסקות, ומוכן שזה יבוא על חשבון הדיוק.
תוכנה שלי מתאימה למי שמחפש דיוק ללא פשרות, ומוכן להשקיע מעט במילון מותאם אישית. -
-
@רחמים אני חייב להגיד לך שכל פעם שאני רואה איזכור של תוכנת ה-OCR שלך אני נהיה ירוק מקנאה. באמת. אין לי מושג איפה מתחילים עם דבר כזה.
האם תסכים לתת לנו ממש על קצה המזלג מושג של איפה מתחילים עם בנייה של תוכנה כזאת? (אל תדאג, לא נראה לי שאני אף פעם אגיע לרמה של לבנות מתחרה...).(נ.ב. אני לא רוצה משהו בשפה פשוטה, תכניס כמה שיותר מושגים טכניים בבקשה )
-
@רחמים נו נו, אם אתה לא רוצה זה זכותך לסרב...
אבל אין לי כרגע זמן וראש לקרוא קוד מקור ב-C כדי להבין איך הדברים עובדים... בכל מקרה, כל הכבוד!
רק תגיד לי, אתה משתמש בספרייות חיצוניות עבור זיהוי הטקסט, או שמימשת את הכל בעמצך?
במחשבה שנייה, מן הסתם התשובה יגרום לי לקנאות בך יותר... -
@yossiz יש המון הסברים במדור ההסברים של tesseract בגיטהב, וגם במרחבי הרשת.
צדקת, מימשתי הכל בעצמי, וזאת בגלל שהתוכנה שלי מותאמת לכל שפה ובמיוחד לעברית, בשביל זה אין לי שום תלות בשום קוד חיצוני, וכל דבר אני יכול לתקן ולשפר אם צריך.וכמו שאמר יוסף, בלעדי! האלקים יענה את שלום פרעה.
כך גם אני [מזרעה דיוסף כאתינא] זו לא חכמה שלי אלא של האלוקים -
חידושים בתוכנה לזיהוי תוים OCR גירסה 2.54
-
בקהילה שלנו רצינו להקים ספרייה דיגיטלית עם חיפוש בספרים של מוהרא"ש, (אשר בנחל, אלפי קונטרסים, וכו וכו) אלא שמאות ספרים רק סרוקים. חיפשנו תוכנה לOCR חלקם טובות חלקם פחות, וזה לא התאים כל כך למה שאנחנו צריכים
אבל מאז התחלנו לעבוד עם התוכנת זיהוי תווים של רחמים, הכל פשוט רץ במהירות באיכות בדיוק כזה ששום תוכנה אחרת לא סיפקה לנואנחנו עובדים יום יום על התוכנה הזו לפענח עוד ספרים ועוד ספרים
-
-
האם בספרים מודרניים (שהוקלדו במחשב) התכנה שלך מגיע לקרוב למאה אחוז דיוק, בכל סוגי הפונטים והעימודים? זה מה שהייתי מצפה, ואני חושב שפינדרידר פחות או יותר עושה את זה.
-
לגבי ספרים ישנים, אני חושב שניתן לחלק אותם ל10-20 לכל היותר סוגים של גופנים+עימוד (כולל צפיפות גופן וכדו') למעט חריגים, ובעיקר של סגנון שפה ואוצר מילים. (תנכ"י, חזל"י, רבני וכו').
הייתי חושב שהדרך האידיאלית זה לקחת מדגם של ספרים כאלו, לייצר לכל אחד מילון מותאם אישית באופן שתיארת. ובפעם הבאה שאינ סורק ספר - לעבור עליו 3 שניות כדי להחליט לאיזה "פרופיל" הוא מתאים ולסרוק בהתאם, עם תוצאות מיטביות.
התכנה שלך מאפשרת את זה? א"כ, למה שלא תשקיע קצת ותביא דבר כזה מובנה?
נ.ב. אם תיקח את זה ברצינות, יתכן שאוכל לתווך לך מישהו שיוכל לתרום יכולות מתקדמות לנושא של אוצר מילים וסגנון שפה בספרים ישנים.
-
-
@davidnead אמר בתוכנה לזיהוי טקסט בעברית (OCR):
-
האם בספרים מודרניים (שהוקלדו במחשב) התכנה שלך מגיע לקרוב למאה אחוז דיוק, בכל סוגי הפונטים והעימודים? זה מה שהייתי מצפה, ואני חושב שפינדרידר פחות או יותר עושה את זה.
-
לגבי ספרים ישנים, אני חושב שניתן לחלק אותם ל10-20 לכל היותר סוגים של גופנים+עימוד (כולל צפיפות גופן וכדו') למעט חריגים, ובעיקר של סגנון שפה ואוצר מילים. (תנכ"י, חזל"י, רבני וכו').
הייתי חושב שהדרך האידיאלית זה לקחת מדגם של ספרים כאלו, לייצר לכל אחד מילון מותאם אישית באופן שתיארת. ובפעם הבאה שאינ סורק ספר - לעבור עליו 3 שניות כדי להחליט לאיזה "פרופיל" הוא מתאים ולסרוק בהתאם, עם תוצאות מיטביות.
התכנה שלך מאפשרת את זה? א"כ, למה שלא תשקיע קצת ותביא דבר כזה מובנה?
נ.ב. אם תיקח את זה ברצינות, יתכן שאוכל לתווך לך מישהו שיוכל לתרום יכולות מתקדמות לנושא של אוצר מילים וסגנון שפה בספרים ישנים.
-
אם הכתב ברור אפשר להגיע גם למאה אחוז דיוק, מה עושה את הכתב פחות ברור? אותיות דבוקות, שבורות, מרוחות, דומות מאוד אחת לשניה בגלל איכות ירודה של הסריקה וכדומה.
וזה מה שכתב לי אחד הלקוחות:
מתוך 50 עמודים שפענחתי היו עד כה 2 טעויות (ספר בן 40 שנה...) מקצועי במיוחד!!!
המלצות נוספות ראה באתר שלי כאן -
כבר כיום ניתן לבנות מילון מותאם אישית לספר מסויים ולהשתמש בו שוב ושוב בספרים דומים, כמו כן ניתן לבנות מילון בסיסי עבור סגנון מסויים של ספרים, ולהשתמש בו כתבנית עבור בניית מילונים שיהיו מבוססים עליו עם תוספת של התאמה לספר שיש בו יחודיות כל שהיא.
אני משקיע כל הזמן בתוכנה וכל הזמן משפר אותה גם בדיוק הפיענוח, גם בחויית משתמש, וגם במהירות הפיענוח, והוספת פיצ'רים חשובים.
אשמח לשיתוף פעולה, היה בקשר במייל.
-