ניווט

    תחומים
    • הרשמה
    • התחברות
    • חיפוש
    • קטגוריות
    • פוסטים אחרונים
    • משתמשים
    • חיפוש
    • מקצועות
    חוקי הפורום

    תוכנה לזיהוי טקסט בעברית (OCR)

    תוכנה
    7
    14
    270
    טוען פוסטים נוספים
    • מהישן לחדש
    • מהחדש לישן
    • הכי הרבה הצבעות
    תגובה
    • הגב כנושא
    התחבר בכדי לפרסם תגובה
    נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
    • בערל
      בערל ניהול נערך לאחרונה על ידי

      לאחרונה התנסיתי לראשונה עם תוכנת ABBYY FineReader לסריקה וזיהוי טקסט מתוך מסמכים.

      התוצאה הייתה ממש מעולה מהירה ומדוייקת. לא יאומן.

      אבל, למחרת ניסיתי על קובץ זהה אבל בעברית והתאכזבתי מאוד..
      אחוזי דיוק נמוכים, הרבה שיבושים וכו'..

      יש תוכנות ברמה הזו שיותר מומלצות לסריקות בעברית?
      יש אולי מה לעשות בכדי לשפר את הזיהוי של FineReader ?

      yossiz UA 2 תגובות תגובה אחרונה תגובה ציטוט 1
      • yossiz
        yossiz @בערל נערך לאחרונה על ידי yossiz

        @בערל
        יש לי נסיון עם המרת ספר שלם בכתב רש"י לטקסט, ולמרות אחוזי השגיאות שגבוהים יותר בעברית מבאנגלית, לא מצאתי תוכנה טובה יותר.
        בהתחלה נסיתי ללמד את התוכנה כדי לקבל אחוזי דיוק גבוהים יותר. אבל התייאשתי מזה, כי לא ראיתי שיפור משמעותי, ובכל מקרה הייתי צריך לעבור על הכל. (abbyy נותן לך ממשק טוב שמצביע על המיקום בתמונה תוך כדי שאתה עובר על הטקסט.)
        יש תוכנה חינמית, (מבוססת על tesseract) שנותן תוצאות סבירות אבל לא יותר טובות מ-abbyy. לפחות כך היה פעם האחרון שבדקתי.

        יש ל @רחמים תוכנה לזיהוי טקסט עברי. אולי הוא יגלה לנו אחוזי הדיוק מול tesseract ו-abbyy.

        רחמים תגובה 1 תגובה אחרונה תגובה ציטוט 6
        • רחמים
          רחמים @yossiz נערך לאחרונה על ידי רחמים

          @yossiz @בערל התוכנה שלי מביאה אחוזי דיוק הרבה יותר טובים FineReader ו tesseract
          וזאת מכמה סיבות:

          • התוכנה מותאמת לפיענוח OCR של כל שפה, אבל עם התאמות ושיפורים מיוחדים עבור עברית, בין בכתב מרובע ובין בכתב רשי.
          • ניתן ללמד ולאמן את התוכנה ולבנות מילון מותאם אישית, דבר המשפר מאוד את דיוק הפיענוח. ובשונה מתוכנות אחרות שגם כאשר מלמדים אותן, הן עדיין ממשיכות לנחש ולא נותנות שליטה מלאה. [וכמו שכתב @yossiz שאין שיפור משמעותי]

          וראה את המדריכים כאן, יש המון המלצות חמות לתוכנה, והמון לקוחות מרוצים.

          תגובה 1 תגובה אחרונה תגובה ציטוט 3
          • UA
            UA @בערל נערך לאחרונה על ידי UA

            @בערל מישהו בעבר (לא זוכר מי) המליץ לי על Google Docs - פשוט לפתוח תמונה/PDF בדוקס והוא עושה OCR
            ובעברית הייתי יותר מרוצה מ-ABBYY באופן משמעותי, והיה מדובר על סריקת ספר ישן.

            תגובה 1 תגובה אחרונה תגובה ציטוט 1
            • ח
              חינמי נערך לאחרונה על ידי

              @רחמים, @בערל,
              אולי בשביל ההתרשמות נערוך 'עימות' בין שתי התוכנות?

              רחמים תגובה 1 תגובה אחרונה תגובה ציטוט 1
              • רחמים
                רחמים @חינמי נערך לאחרונה על ידי

                @חינמי אין בעיה, מה כללי העימות?

                shraga תגובה 1 תגובה אחרונה תגובה ציטוט 1
                • shraga
                  shraga @רחמים נערך לאחרונה על ידי shraga

                  מישהו שמשתמש בשני התוכנות טען לי שהעבודה נוחה בהרבה עם FineReader בבחינת ממשק וכדומה. בלי לימוד, FineReader נותן תוצאות טובות יותר מהתוכנה של רחמים. אבל בספרים עם הרבה טקסט במצב לא טוב עדיף של רחמים וזה ממש מוצלח אחרי שמלמדים את התוכנה (שזה כמובן לוקח זמן).

                  רחמים תגובה 1 תגובה אחרונה תגובה ציטוט 1
                  • רחמים
                    רחמים @shraga נערך לאחרונה על ידי רחמים

                    @shraga אני אסביר יותר כדי שהעיניין יובן מכל הכיוונים:

                    • פיין רידר מגיע עם מילון מובנה רחב, שהכינו אותו מראש עבור כל טקסט שרק יהיה. ובגלל זה, מצד אחד הוא מפענח הרבה דברים, אבל מצד שני, מה שהוא לא מצליח להגיע לרמה המספיקה, אי אפשר לשפר אותו, אולי רק מעט וכמו שציין @yossiz . וממילא יוצא שצריך לתקן את כל השגיאות ידנית, ואפילו אם הוא קבוע מתבלבל במשהו צריך לשבת ולתקן הכל בכל הדפים.

                    • אבל התוכנה שלי בנויה עם כיון מחשבה קצת אחר, היא מגיעה עם מילון בסיסי, הכולל בתוכו כמה עשרות גופנים מצויים, של כתב מרובע וגם של כתב רשי, ואיתו אפשר לפענח במדוייק טקסטים בסריקה איכותית. אבל כאשר יש ספר עם גופן חדש ולא מוכר או כתב ישן, המילון הבסיסי לא מספיק, ויש לבנות מילון לאותו גופן, ואפשר להשתמש במילון לכמה וכמה ספרים.

                    • בניית המילון לוקחת רבע שעה עד עשרים דקות בלבד. ומיד מתחילים לפענח, וכאשר עוברים על הפיענוח כדי לתקן את שגיאות האיות וכדומה, כל תיקון נכנס למילון, והפיענוח של הדף הבא כבר יותר מדוייק. דהיינו שלא צריך לשבת ולבנות מילון, אלא זה קורה תוך כדי התיקונים בפיענוח, שזה דבר שבכל מקרה צריך לעשות בכל תוכנה.

                    • יש עוד נקודה חשובה, כיון שפיין רידר בא עם מילון גדול, גם טקסטים בסריקה איכותית, יש לו הרבה פעמים שגיאות, כי המילון שלו מכיל גם כתב רשי וגם כתב מרובע וזה סותר את זה. אבל אצלי, בונים מילון לאותו ספר ואפשר לקבל פיענוח עם 100 אחוז דיוק.

                    לסיכום:
                    פייר רידר מתאים למי שמחפש פיענוח מהיר בלי התעסקות, ומוכן שזה יבוא על חשבון הדיוק.
                    תוכנה שלי מתאימה למי שמחפש דיוק ללא פשרות, ומוכן להשקיע מעט במילון מותאם אישית.

                    yossiz תגובה 1 תגובה אחרונה תגובה ציטוט 10
                    • yossiz
                      yossiz @רחמים נערך לאחרונה על ידי yossiz

                      @רחמים אני חייב להגיד לך שכל פעם שאני רואה איזכור של תוכנת ה-OCR שלך אני נהיה ירוק מקנאה. באמת. אין לי מושג איפה מתחילים עם דבר כזה.
                      האם תסכים לתת לנו ממש על קצה המזלג מושג של איפה מתחילים עם בנייה של תוכנה כזאת? (אל תדאג, לא נראה לי שאני אף פעם אגיע לרמה של לבנות מתחרה...).

                      (נ.ב. אני לא רוצה משהו בשפה פשוטה, תכניס כמה שיותר מושגים טכניים בבקשה 🙂 )

                      רחמים תגובה 1 תגובה אחרונה תגובה ציטוט 8
                      • רחמים
                        רחמים @yossiz נערך לאחרונה על ידי

                        @yossiz מה אני יכול לחדש לך, אחרי שמן הסתם ראיתי את הקוד פתוח של tesseract וכל הגיטהב מלא קוד של OCR בלי סוף.

                        yossiz תגובה 1 תגובה אחרונה תגובה ציטוט 0
                        • yossiz
                          yossiz @רחמים נערך לאחרונה על ידי

                          @רחמים נו נו, אם אתה לא רוצה זה זכותך לסרב...
                          אבל אין לי כרגע זמן וראש לקרוא קוד מקור ב-C כדי להבין איך הדברים עובדים... בכל מקרה, כל הכבוד!
                          רק תגיד לי, אתה משתמש בספרייות חיצוניות עבור זיהוי הטקסט, או שמימשת את הכל בעמצך?
                          במחשבה שנייה, מן הסתם התשובה יגרום לי לקנאות בך יותר... :smile:

                          רחמים תגובה 1 תגובה אחרונה תגובה ציטוט 5
                          • רחמים
                            רחמים @yossiz נערך לאחרונה על ידי

                            @yossiz יש המון הסברים במדור ההסברים של tesseract בגיטהב, וגם במרחבי הרשת.
                            צדקת, מימשתי הכל בעצמי, וזאת בגלל שהתוכנה שלי מותאמת לכל שפה ובמיוחד לעברית, בשביל זה אין לי שום תלות בשום קוד חיצוני, וכל דבר אני יכול לתקן ולשפר אם צריך.

                            וכמו שאמר יוסף, בלעדי! האלקים יענה את שלום פרעה.
                            כך גם אני [מזרעה דיוסף כאתינא] זו לא חכמה שלי אלא של האלוקים☝

                            תגובה 1 תגובה אחרונה תגובה ציטוט 12
                            • בערל
                              בערל ניהול נערך לאחרונה על ידי

                              מכיוון שאיני זקוק לכמויות מסחריות אשאר בינתיים עם FineReader

                              מהו הקצת שאפשר ללמד אותו? ואיך?

                              הכי מטריד אותי הבלבול שלו בין י ל '

                              תודה רבה!

                              yair-na תגובה 1 תגובה אחרונה תגובה ציטוט 0
                              • yair-na
                                yair-na @בערל נערך לאחרונה על ידי

                                @בערל בד"כ רזולוציה גבוהה יותר מספקת תוצאות טובות יותר.

                                תגובה 1 תגובה אחרונה תגובה ציטוט 0
                                • 1 / 1
                                • First post
                                  Last post
                                בא תתחבר לדף היומי!