דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תכנות
  3. זיהוי של ״בני ברק״ גם אם שולחים אליי ״בניי ברק״ או בני ברכ״

זיהוי של ״בני ברק״ גם אם שולחים אליי ״בניי ברק״ או בני ברכ״

מתוזמן נעוץ נעול הועבר תכנות
6 פוסטים 3 כותבים 208 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • צבי-שצ מחובר
    צבי-שצ מחובר
    צבי-ש
    כתב ב נערך לאחרונה על ידי צבי-ש
    #1

    אני בונה שלוחת api בימות המשיח של הרשמה לאיזה ארגון ,

    העניין הוא שעל פרטים כמו שם פרטי ומשפחה, לא מפריע להם אם התמלול יהיה לא מדויק לגמרי כגון במקום כהן שיכתוב כוהן, עם זה אין בעיה, הבעיה היא בכתובת שאם זה לא מדוייק אז לא נשלח אליו דיוור וכו.

    יש לי רשימה של הערים שמהם ניתן להצטרף לארגון, ובכל עיר שאפשר להצטרף ממנה, יש לי רשימה עם הרחובות.

    עכשיו הסתבכתי איך אני יכול לדעת בקוד , שהמילה בניי ברק שמתקבלת אצלי מהזיהוי דיבור, היא בני ברק שכתוב לי ברשימה?

    או שרחוב ראשי , הוא רחוב רשי בבני ברק?

    הקוד כתוב בpython.

    עריכה:
    אני מקבל אליי הקלטה, ומזהה דיבור על ידי גוגל.
    אז אולי הפתרון לשלוח לגוגל את הרשימת מילים שזה יכול להיות אחת מהם.

    כיף לגלות דברים חדשים.
    חוק ה-50-50-90: בכל פעם שיש סיכוי של 50-50 שמשהו יעבוד, יש סיכוי של 90 אחוז שהוא לא. מקור

    צדיק תמיםצ dovidD 2 תגובות תגובה אחרונה
    1
    • צדיק תמיםצ מנותק
      צדיק תמיםצ מנותק
      צדיק תמים
      השיב לצבי-ש ב נערך לאחרונה על ידי צדיק תמים
      #2

      @צבי-ש אני השתמשתי לזה (מציאת התאמה מזיהוי דיבור לשמות ערים) בNode.js בספריית fusejs.io, (אני הגדרתי את הthreshold ל0.3 כי הוא היה מדי סלחני), ואז אתה מנסה למצוא התאמה לעיר, ובשלב שני אותו דבר, לרחוב באותה עיר.
      אין לי נסיון בזה בפייתון, אבל יש כל מיני חבילות כאלה, תחפש אחת נוחה ותשתמש.
      הגדרת רשימת מילים קשורות (שמות ערים או רחובות) כמו שכתבת גם עשויה לעזור, אולי כדאי לשלב ביניהם.
      אפשרות נוספת היא להשתמש בAPI של מפות דוגמת גוגל maps, הוא אמור להתמודד עם כאלה דברים.

      Don’t comment bad code — rewrite it." — Brian W. Kernighan and P. J. Plaugher"
      טיפים

      תגובה 1 תגובה אחרונה
      3
      • צבי-שצ מחובר
        צבי-שצ מחובר
        צבי-ש
        כתב ב נערך לאחרונה על ידי צבי-ש
        #3

        @צדיק-תמים תודה רבה,
        חיפשתי בגוגל
        fuzzy matching library python
        התוצאה הראשונה הייתה
        https://medium.com/codex/best-libraries-for-fuzzy-matching-in-python-cbb3e0ef87dd

        ואכן הם הביאו שם ספרייה בשם jaro-winkler

        ואכן השתמשתי בה והיא פתרה לי את הבעיה:

        import jaro
        
        str1 = "בניי ברק"
        str2 = "בני ברק"
        
        print(jaro.jaro_winkler_metric(str1,str2))
        

        וההתאמה שהוא מצא לי הייתה 0.9708333333333333

        ואילו על זה

        import jaro
        
        str1 = "בני ברכ"
        str2 = "בני ברק"
        
        print(jaro.jaro_winkler_metric(str2,str1))
        

        ההתאמה שלו הייתה 0.9333333333333333

        (אולי ההתאמה קצת שונה בגלל שזה לא אות כפולה, שזה טעות יותר מצויה, אלא זה אות אחרת לגמרי.)

        כיף לגלות דברים חדשים.
        חוק ה-50-50-90: בכל פעם שיש סיכוי של 50-50 שמשהו יעבוד, יש סיכוי של 90 אחוז שהוא לא. מקור

        dovidD תגובה 1 תגובה אחרונה
        3
        • dovidD מנותק
          dovidD מנותק
          dovid ניהול
          השיב לצבי-ש ב נערך לאחרונה על ידי dovid
          #4

          דובר בעבר:
          https://tchumim.com/topic/566

          @צדיק-תמים ישר כח על הספריה, לא הכרתי.

          במקרה שלא מדובר ברשימת ערים סוגרה ומוכרת מראש, או אם הספריה היא לא מאה אחוז אז אולי יעזור לך גוגל gecoding אני משתמש איתה (רק שבמקרה שלי זה טעויות הקלדה ולא תמלול), בדרך כלל התוצאה הראשונה זה הדבר הנכון.

          f355c8ff-e0d8-4aea-9b94-5a5d530eb2de-image.png

          מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

          בכל נושא אפשר ליצור קשר dovid@tchumim.com

          תגובה 1 תגובה אחרונה
          3
          • dovidD מנותק
            dovidD מנותק
            dovid ניהול
            השיב לצבי-ש ב נערך לאחרונה על ידי
            #5

            @צבי-ש לא הבנתי מה הבאת מjaro-winkler,
            אתה מתלונן שזה לא טוב או אתה משבח אותו?
            זה לכאורה פותר לך את הבעיה, לא?

            מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

            בכל נושא אפשר ליצור קשר dovid@tchumim.com

            צבי-שצ תגובה 1 תגובה אחרונה
            1
            • צבי-שצ מחובר
              צבי-שצ מחובר
              צבי-ש
              השיב לdovid ב נערך לאחרונה על ידי
              #6

              @dovid כתב בזיהוי של ״בני ברק״ גם אם שולחים אליי ״בניי ברק״ או בני ברכ״:

              @צבי-ש לא הבנתי מה הבאת מjaro-winkler,
              אתה מתלונן שזה לא טוב או אתה משבח אותו?
              זה לכאורה פותר לך את הבעיה, לא?

              פותר לי, כתבתי את זה להראות את הפיתרון , בשביל הבאים שיבואו ויתקעו עם השאלה הזאת.

              כיף לגלות דברים חדשים.
              חוק ה-50-50-90: בכל פעם שיש סיכוי של 50-50 שמשהו יעבוד, יש סיכוי של 90 אחוז שהוא לא. מקור

              תגובה 1 תגובה אחרונה
              5
              • צבי-שצ צבי-ש התייחס לנושא זה ב

              בא תתחבר לדף היומי!
              • התחברות

              • אין לך חשבון עדיין? הרשמה

              • התחברו או הירשמו כדי לחפש.
              • פוסט ראשון
                פוסט אחרון
              0
              • דף הבית
              • קטגוריות
              • פוסטים אחרונים
              • משתמשים
              • חיפוש
              • חוקי הפורום