Fake text detection
-
אני מחפש רעיונות איך לזהות תגובות סרק.
מדובר על בדיקה פשוטה ללא הרבה משאבים, שתחסום את התגובות שבוודאות גבוהה הינן תגובות סרק.
זה יכול להיות מיושם בצד לקוח ב JS.אני חשבתי על בדיקות כאלו:
-
אם יש מילה מעל X תווים. הבעיה היא עם כתובות אינטרנט
-
מילים שמתחילות ב םןץףך או שיש םןץףך באמצע מילה (אם יש פעם אחת זה לא נורא. אם יש יותר אז לחסום)
-
אם יש יותר מ2 שורות בעלות תו (אות) אחד בלבד
להלן דוגמאות לתגובות:
ידועילדחיגועילדחגיעךשדלעילחדיגעחיךדלחיעלחדגיעויעלדישךלדחעיוחעיקלדג דלךע
חכגשעיחלךהימליעלידלגה
ןעיהמ הןש[עי]שע
שעןםרךעי
יעןםרגעמןםשך,ריע
רחעצמהםןךשעח
רןעלרםקשןעHG.FJKDGHJKFNVCXUIRGHKSJDV SKHVNJNFDK;HFDNBVFHDJKAHSKDFJGHJKFHVNBFKLDHA;HDFLKODGHליעלחסיץולזעירעוןירעךדלגעידלךגעילמהויעדלגעחיגדלמהוןרעילךדגהלגחהמיעםדןגיעךדגהמיעןםדיגמתהמגמעדיםןעידמגלךהמדםןעידןךגהמ
G
G
G
G
G -
-
מדובר JS בצד לקוח. איזה מילון זמין לי?
צריך תמיכה באידיש ובעברית.
אני רוצה להתבסס על מבנה של מילה, ללא בחינה האם היא קיימת במילון.
מילה כמו "חךגכג" תיפסל בגלל שיש ך באמצע מילה.
מילה כמו גדכ, תיפסל בגלל תו לא חוקי באמצע מילה. וכמו כן שנגמרת בתו לא תקין. (באידיש יש מילים שמסתיימות במנצפכ לא סופיות?)מילה כמו כעג[ד תיפסל בגלל תו לא תקין באמצע מילה.
בנוסף, אני מנסה לבדוק כיוון של מציאת רצפי אותיות שאינן אופייניות לשפה.
כמו כן מילה ארוכה מידי תהווה שגיאה.
משתמש שירצה להספים, יצטרך להתאמץ מעט בשביל לכתוב תגובת ספאם.
כמובן שאפשר לשחק עם זה הרבה, שלא יפסול על כל שגיאה, אלא רק בכמות מסויימת של שגיאות.
בשורה התחתונה, אני מנסה למצוא כמה כללים שיבדקו רק על פי צורת המילה, וללא בדיקה מול מילון.
-
@מנצפך אמר בFake text detection:
אני גם לא רוצה להכביד בצד לקוח.
בכל אופן, הסברתי שהכוונה לעשות אלגוריתם שמזהה פחות או יותר הקלדות אקראיות.האלגוריתם שאתה מחפש לבדיקה של מילים תקינות דורש תכנון רב, והוא אינו טריוויאלי כלל וכלל.
אני עדיין מציע לך את האפשרות של המילון, מבחינת יעילות ומבחינת זמן עבודה.
לגבי המילון עצמו, בעברית יש כאן פרוייקט שאוסף את כל המילים העבריות מויקיפדיה.
ביידיש תוכל לסרוק כמה טקסטים או אולי את הפורום שלך. -
@odeddvir
איפה המילון הזה ישב?
נראה שמדובר בהרבה כוח עיבוד (או בצד שרת או בצד לקוח)
כי הוא יצטרך לחפש כל מילה במילון.
ולגבי יידיש כמה טקסטים ממש לא מספיקים לייצור מילון
צריך משהו בסדר גודל של ויקיפדיה.נראה ש@מנצפך לא מחפש משהו מושלם
רק משהו שיגן מהקלדות רנדומליות של ילדים (למשהו בסגנון של ההודעות בנדרים פלוס).
לכן נראה שאפשר להתחיל עם כמה כללים פשוטים שהובאו למעלה
ולעבור על ההודעות שעקפו את הסינון ולהוסיף עוד כלל, וכן הלאה. -
@nigun אמר בFake text detection:
איפה המילון הזה ישב?
בשרת כמובן.
נראה שמדובר בהרבה כוח עיבוד (או בצד שרת או בצד לקוח)
כי הוא יצטרך לחפש כל מילה במילון.לא צריך לחפש כל מילה, מספיק מדגם של כמה מילים.
החיפוש עצמו מהיר מאוד. הרבה יותר מכל אלגוריתם אחר.ולגבי יידיש כמה טקסטים ממש לא מספיקים לייצור מילון
צריך משהו בסדר גודל של ויקיפדיה.בזה אני לא יכול לעזור...