אני פיענחתי קאפצה כזה בעבר עם php זה יחסית פשוט.
לגבי ניקוי אתה יכול להשים לב שהליכלוכים זה נקודות קטנות מימלא אם אתה עושה פונקציה שעוברת פיקסל פיקסל ויוצרת קבוצות קבוצות של פיקסלים שחורים. אתה עושה מערך של פיקסלים לדוגמא 3,4 = קבוצה 6 וכן הלאה. וככה אתה יכול לחפש שאם יש פיקסל קרוב שכבר הוגדר לקבוצה מסויימת אתה מגדיר אותו באותו קבוצה כמו הפיקסל הקרוב.
ואז אחרי שיש לך קבוצות של פיקסלים אתה יכול למחוק קבוצות שמספר הפיקסלים שלהם נמוך מX פיקסלים. או למחוק הכל חוץ מהחמישה הגדולים ביותר.
הבעיה בקוד שלך זה שחסר לך תוכנה במחשב שנקראת tesseract או gocr או ocrad אתה לא צריך את פייתון בשביל להריץ פקודות shell אתה יכול לעשות את זה גם עם דוט נט.
התוכנה שאני מכיר שעובדת טוב זה tesseract. אתה יוצר קובץ זמני של png ומריץ ככה.
/path/to/tesseract pngfilename txtoutputבשביל למנוע בעיות תשים נתיבים מלאים של הקבצים. וגם התוכנה הזאת מוציאה קובץ שהיא מוסיפה לו סיומת txt לכן תכניס בלי סיומת ואחרי זה תקרא את הקובץ עם סיומת txt.
אם היית מפתח בnode הייתי ממליץ לך על המחלקה הזאת
https://www.npmjs.org/package/dv
אבל הייתי ממליץ לך לחפש באינטרנט אולי יש מחלקה של tesseract לדוט נט בלי להריץ shell.
פורסם במקור בפורום CODE613 ב28/07/2014 13:35 (+03:00)