@davidnead אמר בתוכנה לזיהוי טקסט בעברית (OCR):
@רחמים
האם בספרים מודרניים (שהוקלדו במחשב) התכנה שלך מגיע לקרוב למאה אחוז דיוק, בכל סוגי הפונטים והעימודים? זה מה שהייתי מצפה, ואני חושב שפינדרידר פחות או יותר עושה את זה.
לגבי ספרים ישנים, אני חושב שניתן לחלק אותם ל10-20 לכל היותר סוגים של גופנים+עימוד (כולל צפיפות גופן וכדו') למעט חריגים, ובעיקר של סגנון שפה ואוצר מילים. (תנכ"י, חזל"י, רבני וכו').
הייתי חושב שהדרך האידיאלית זה לקחת מדגם של ספרים כאלו, לייצר לכל אחד מילון מותאם אישית באופן שתיארת. ובפעם הבאה שאינ סורק ספר - לעבור עליו 3 שניות כדי להחליט לאיזה "פרופיל" הוא מתאים ולסרוק בהתאם, עם תוצאות מיטביות.
התכנה שלך מאפשרת את זה? א"כ, למה שלא תשקיע קצת ותביא דבר כזה מובנה?
נ.ב. אם תיקח את זה ברצינות, יתכן שאוכל לתווך לך מישהו שיוכל לתרום יכולות מתקדמות לנושא של אוצר מילים וסגנון שפה בספרים ישנים.
אם הכתב ברור אפשר להגיע גם למאה אחוז דיוק, מה עושה את הכתב פחות ברור? אותיות דבוקות, שבורות, מרוחות, דומות מאוד אחת לשניה בגלל איכות ירודה של הסריקה וכדומה.
וזה מה שכתב לי אחד הלקוחות:
מתוך 50 עמודים שפענחתי היו עד כה 2 טעויות (ספר בן 40 שנה...) מקצועי במיוחד!!!
המלצות נוספות ראה באתר שלי כאן
כבר כיום ניתן לבנות מילון מותאם אישית לספר מסויים ולהשתמש בו שוב ושוב בספרים דומים, כמו כן ניתן לבנות מילון בסיסי עבור סגנון מסויים של ספרים, ולהשתמש בו כתבנית עבור בניית מילונים שיהיו מבוססים עליו עם תוספת של התאמה לספר שיש בו יחודיות כל שהיא.
אני משקיע כל הזמן בתוכנה וכל הזמן משפר אותה גם בדיוק הפיענוח, גם בחויית משתמש, וגם במהירות הפיענוח, והוספת פיצ'רים חשובים.
אשמח לשיתוף פעולה, היה בקשר במייל.