-
יש לי רשימה של רחובות, אבל חלק מהרשומות הוקלדו עם שגיאות כתיב שונות.
אני רוצה לנרמל את הנתונים.
יש לי רשימה של שמות רחובות תקניים.
יש לי פונקציה שמחשבת את הדמיון בין המחרוזות על ידי אלגוריתם Levenshtein Distance כך שתתן ניקוד על אחוז הדימיון בין המחרוזות, למשל:חיים וייצמן == חיים ויצמן תתן נגיד 90% כי אות אחת חסרה.
האם קיימת פונקציה להשוואה כזו גם על ידי על ידי רג'קס?
-
@yossiz אמר בדמיון בין מחרוזות על ידי RegEx:
מה לא טוב ב-Levenshtein Distance ומה היתרון ב-regex?
לא נראה לי שר'גקס הוא הכלי הנכון למטלה זו.זה טוב, רק חשבתי שיש איזו דרך מתוחכמת לעשות זאת על ידי regex.
כנראה שנישאר עם לוינשטיין.אגב, מהכתבה בויקיפידיה הבנתי שה-Levenshtein Distance מחזירה מספר, לא אחוזים.
אני ממיר לאחוזים על ידי חלוקה באורך המחרוזת.
@dovid אמר בדמיון בין מחרוזות על ידי RegEx:
לא הבנתי מה הכוונה רג'קס. מרחק בין מה למה.
(דובר בעבר פה על הבעיה https://tchumim.com/topic/566).זה אכן הנושא המדובר, תודה!
-