איך בונים בוט מושלם?
-
אתה קופץ ממצב של API לבוט, ובוט אתה קורא למישהו שממש מזיז עכבר כמנו משתמש.
אבל יש כמה דרגות באמצע.
הפשוטה ביותר (מהפן התכנותי/טכני של הפעולה עצמה) זה לעשות מיני "הנדסה לאחור" לאתר,
ופשוט לעשות אותו דבר. בלי עכבר ובלי בוט. למשל בלוגין לאתר זה לאחזר את AntiForgeryToken ואח"כ לשלוח פוסט איתו ועם שם המשתמש וסיסמה. ב99% מהאתרים והפעולות זה עובד יופי.
מה בעיה בזה:- ידע בסיסי: צריך טיפה מיומנות בלקרוא את "מה האתר עושה" כדי לחקות את פעולותיו
- לא ישים: אתרים שקשה עד בלתי אפשרי להבין מה עושים, כמו כל הבנקים בארץ כמעט, וכמו אמזון ועוד.
- תחזוקה: באתר עם שינויי צד שרת תכופים (נדיר מאוד מאוד) הקוד ייכשל כל פעם וצריך ללמוד את השינוי ולעדכן את הקוד.
- אנטי בוטים: מנגוני קאפצ'ה שמיועדים למנוע גישה לקוד אוטומטי.
לשלושת הבעיות הראשונות יש ספריות בסגנון של סילניום (לאחרונה אחיין שלי הכיר לי אחת מפורסמת לנוד בשם puppeteer), שזה בעצם מריץ דפדפן של ממש ומדמה פעולות משתמש. זה יקר מאוד בביצועים ויש מגוון של הוראות בוטיות מה לעשות: לגשת לאלמנט האינפוט הראשון בדף, או לפי סלקטור וכיוצ"ב. לי אישית אין שום ניסיון עם שום ספריה בסגנון. ואני גם ממליץ לא להשתמש בספריה בסגנון אם אין בעיה מהסוגים האלו.
צריך לשים לב ששלושת הבעיות הראשונות הם נדירות מאוד, לעומת הרביעית ששכיחה הרבה יותר, ולה בד"כ כלום לא עוזר - מוקדם או מאוחר מרימים ידיים. -
-
@dovid אמר באיך בונים בוט מושלם?:
עד היום מה שעשיתי זה פשוט הקלטה של הnetwork ולשלוח מחדש את הערכים בPOST/GET ולשמור את העוגיות
אבל יש אתרים שאיכשהו שמים לב שההתנהגות כאן היא לא אנושית,
קראתי (או שמעתי) על זה איפשהו שיש לאתרים מנגנונים שמחשבים את הזמן מהכניסה לאתר עד לשליחה ובודקים האם הופעלו אירועים מסויימים בדף שכל לקוח אנושי חייב להפעיל
לגבי חסימות קאפצ'ה ודומיהם יש את השירות הזה שפותר את הבעיה בתשלום, ובמקרים מסויימים זה שווה
גם העלות בביצועים שווה אם לא סך הכל משתמשים בזה בתור פרוקסי רק כשלקוח שלי צריך
ולא בוט שרץ כל הזמן ללא סיבה מספיקה
מה שחסר לי זה כלי שמקליט את כל האירועים בדף ולא רק את מה שנשלח בPOST/GET -
@nigun התיאוריה שלך לדעתי לא נכונה והיא לא סיבת הכישלון (אם תביא אתר ודוגמה נוכל לבדוק יחד).
אתרים לא מבזבזים היום זמן כדי לדחות בוטים בשיטות מתחת לאדמה (שבסופו של יום ממש קל לעקוף אותם ע"י התבוננות פשוטה בnetwork), מי שבאמת רוצה שלא יהיו בוטים או עושה משהו פשוט מידי, שממש קל לעקוף, או הולך על ספריה רצינית כמו reCaptcha ואז חסל סדר נסיונות (השירות שהזכרת הוא לא פתרון תוכנה).בכל אופן, אתה לא צריך "להקליט", אתה סה"כ צריך להורות לספריה דמויית הסלניום את השלבים שהמשתמש האמיתי עושה וכך היא תעשה (וזה כולל כל האירועים הנורמלים שקורים בדפדפן, על אף שלדעתי זה לא רלוונטי כאמור).
-
@nigun אמר באיך בונים בוט מושלם?:
אבל יש אתרים שאיכשהו שמים לב שההתנהגות כאן היא לא אנושית,
קראתי (או שמעתי) על זה איפשהו שיש לאתרים מנגנונים שמחשבים את הזמן מהכניסה לאתר עד לשליחה ובודקים האם הופעלו אירועים מסויימים בדף שכל לקוח אנושי חייב להפעילכמו שדוד אמר זה ממש לא כך, הדרך הפשוטה לחסום בוטים היא באמצעות מאפיין שהדפדפן או כל כלי שולח והוא נקרא useragent שבו יש פירוט מאיזה מכשיר המשתמש גולש.
הבוט שלך שולח שהוא בוט ולכן הוא נחסם. -
@dovid אמר באיך בונים בוט מושלם?:
@nigun התיאוריה שלך לדעתי לא נכונה והיא לא סיבת הכישלון (אם תביא אתר ודוגמה נוכל לבדוק יחד).
אתרים לא מבזבזים היום זמן כדי לדחות בוטים בשיטות מתחת לאדמה (שבסופו של יום ממש קל לעקוף אותם ע"י התבוננות פשוטה בnetwork), מי שבאמת רוצה שלא יהיו בוטים או עושה משהו פשוט מידי, שממש קל לעקוף, או הולך על ספריה רצינית כמו reCaptcha ואז חסל סדר נסיונות (השירות שהזכרת הוא לא פתרון תוכנה).בכל אופן, אתה לא צריך "להקליט", אתה סה"כ צריך להורות לספריה דמויית הסלניום את השלבים שהמשתמש האמיתי עושה וכך היא תעשה (וזה כולל כל האירועים הנורמלים שקורים בדפדפן, על אף שלדעתי זה לא רלוונטי כאמור).
חשבתי שככה reCaptcha v3 עובד
@avr416
אני לא יודע על מה הוא מתבסס במאמר הזה
אבל עכשיו עשיתי ניסוי וכתבתי סקריפט PHP פשוט שמדפיס את USER AGENT<?php $user=$_SERVER['HTTP_USER_AGENT']; print $user; ?>
ועשיתי צילום מסך עם הבוט שלי
האם אתה מוצא כאן איזה רמז לבוט?
וזה צילום מסך כשאני נכנס מהדפדפן הרגיל
אני לא מוצא כאן הבדל שמצביע על בוט
עריכה: אני רואה שיש הרבה דיונים מעניינים בנושא
וכנראה לכן גוגל הוסיפו לreCaptcha את האימות המעצבן ע"י תמונות ולא הספיק הסימון V וכו' כי הבוטים משתכללים כל הזמן -
@dovid
הבעיה היא בכותב המאמר המציג מצב כאליו הבוטים "הרעים" מזדהים בשמםמה זה אומר? כל מי שנכנס לאתר מזדהה באמצעות ה-user agent שלו. לגולשים אנושיים יש את שם הדפדפן בתור ה-user agent. בוטים מכילים את השם שלהם. הטקסט שלעיל אומר שמדובר בערימת בוטים שיש להם תחילת bot בשם עם תוים שבאים אחר כך. מה המטרה שלהם בחיים? יש כאלו שינסו לשתול תגובות פיקטיביות, יש כאלו שפשוט יציגו referrer עם איזשהו לינק כי שתבדוק את הסטטיסטיקות ותתפתה להכנס ללינק ועוד שאר ג’אנק פרסומי. בניגוד לגוגל בוט, יאהו ושאר החברים – אנחנו לא ממש רוצים את הבוטים האלו באתר שלנו.
אגב בדקת מה reCaptcha v3 עושה בדיוק?
-
@nigun לא לחצתי על הלינק למאמר וודאי שלא קראתי אותו.
reCaptcha (גם 1,2) מעורפל היטב בצד לקוח וכולל גם עוצמת עיבוד ונתונים בצד שרת.
בא נניח לצורך הדוגמה שהקוד בצד לקוח משקלל את תנועת העבר ומוציא מזה נוסחה גיאומטרית.
כעתת לבני אדם יש מכנה משותף עצום בתנועות העכבר ומאידך כל פעם אמורה להיות ייחודיות גדולה.
הקוד בצד לקוח שולח לגוגל את חתימת המידע בצירוף הID של הביקור המדובר. גוגל מנתחת את החתימה מול כלל נתוני הקליינט (אייפי וכולי), ומחליטה מה הסיכויים שזה נשתמש טבעי נמול האפשרות שזה אתה שלחת את בקשת הווב הזאת עם נתונים שהעתקת מבקשה קיימת או ש"המצאת" חתימה חדשה כדי להראות מקוריות. -
@dovid
לא דווקא תזוזות עכבר
אלא בדיקה איזה אירועים הוא מפעיל ובאיזה סדר
וכן כמה זמן הוא שוהה בכל דף
האם יש עוד פעולות שאני עושה ובוט לא?
בכל מקרה אני מניח שבעלי האתרים לא חוסמים כל מי שיש לו דירוג 0.7 ומטה
כי זה יהרוס להם את החוות משתמש
השאלה היא איפה הגבול? -
@nigun אתה במחילה עושה צחוק מכל העולם.
הreCaptcha נולד בגלל שהcaptcha המסורתי, שהיה קשה מאוד לרובוטים, נפרץ ע"י בינה מלאכותית ב98 אחוזים...
ולכן פיתחו את הreCaptcha שבא לעשות מענה הפוך - הוא רתם את הבינה המלאכותית כדי לזהות התנהגות אנושית (זה יכול להיות סוציולגית/ספונטנית וכל נתון שלא יהיה, והם שומרים בסוד את הפרמטרי הקלט עליהם הם נשענים) יחד עם המידע הכללי שיש לגוגל על כל משתמש בעולם. שניהם ביחד הם שילוב חזק מאוד.
כששאלת איך זה עובד הזדהיתי עם השאלה כי גם אותי זה גירה לדעת, אבל אם אתה שואל טכנית למה אי אפשר לעקוף את זה ע"י סימולציה של "אירועי הדף" שאתה כל הזמן מדבר עליהם, אז תבין שאת זה היה גם בזמן הcaptcha המסורתי...אני הסברתי מצויין למה אי אפשר לעקוף עם המשל (אני קורא לזה משל כי בכלל לא בטוח שהם מתבססים על זה) של גיאומטריית העכבר. היום בבינה מלאכותית אתה נותן למחשב אוסף גדול של מדגמים שכבר סווגו, חציים לX וחציים לY, ועל פי זה האלגרותים של הבינה מלאכותית מסווג את המקרה הבא. איך זה עובד? הוא מחפש דפוס עקבי בכלל הנתונים שיש לכל מדגם והדפוס העקבי הזה בהינתן כח עיבוד גדול יכול להיות נוסחה שבן אדם בחיים לא יתפוס.
כעת האופציות שלך הם להזין לו מידע אמיתי, שזה יהיה בפעם השניה כפל לא סביר של ייחודיות, או לשחק עם הנתון האמיתי שללא ספק תפגע בנוסחת העקביות האנושית בצורה קשה. -
@dovid
לפי מה שהבנתי זה החלטה של בעל האתר באיזה רמה הוא חוסם את המשתמש
יש אתרים רגישים של אחרי כמה לחיצות ברצף ישר קופץ לך האימות ע"י בחירת תמונה
יש כאלו שמסתפקים בסימון V
ויש אתרים שרק אחרי הרבה כניסות מאותו IP הם מקפיצים את החסימה
אני מעשר שיש אתרים שמגדירים חסימה הרמטית לIP שיש לו דירוג נמוך באופן קבוע
אני לא חשבתי שאני יגיע עם רובוט לדירוג של 0.9
אבל עם קצת משחקים אולי אפשר לעלות מ0 ל0.2 או מה שזה לא יהיה
שיהיה בקטגוריה של האפשרות שזה בן אדם שיש לו סך הכל מילוי טפסים אוטומטי
ואז לפחות הIP שלי לא יחסם וכן באתרים שלא חופרים עם האימות כל רגע אני יוכל להיכנס
(כמובן שאם אני יגזים, בעל האתר אולי ישים לב שיש פה תנועה מוגזמת ויחליט להעלות את הרמה רגישות)חוץ מזה יש עוד נושא האם אפשר לעקוף את המנגנון של reCaptcha 1 ע"י יצירת אירוע של קליק בדיוק כמו המשתמש
וכן האם אפשר לעקוף את reCaptcha2 ע"י שלחה התמונות לבדיקה אנושית (ששווה במקרים מסוימים)
שאגב עצם קיומו של חברה כזאת מצביע שיש כאלו יש משתמשים ברובוט באופן קבוע ולא נחסמים
אמנם יכול להיות שהלקוחות של החברה הזאת פיתחו לעצמם אלגוריתם שמדמה תנועות של לקוח וככה מעלים את הדירוג שלהם שלא יזהו שהם רובוט ולי אין את המשאבים לפיתוח כזה -
@nigun לא אכפת לי כמה תגדיר לעצמך שזה קל, בכל מקרה תדע שאתה חי בסרט.
ההגדרה של תמונות או וי לא תלויה בהגדרת האתר אלא בגוגל, והיא עושה את זה בהתאם לחשדות שלה (גם מה שכתבת שגוגל הוסיפו זאת בהמשך לא נכון, מייד היה את זה רק שזה מופיע רק לחשודים. כמו"כ בגלל שגוגל עצמה מתבססת על בינה מלאכותית השתפרות הרובוטים רק משפרים את המנגנון ולא מצריכים לשכלל אותו).
ואתרים שמקבלים תרומות אולי מקבלים 0.2 השאר לא אכפת להם לשים 0.5 ומעלה, זה לא פוגע בכלל בחוויות משתמשים נורמליים.
(אתה גם כותב שאם תגזים בעל האתר יעלה את הרגישות כשאתה לא מבין שגוגל תשים לב מאה שנה לפניו ויורידו לך את הדירוג).אין הבדל מהותי בין reCaptcha 1,2,3 וכל מה שאמרתי תקף לכולם.
וכל מפתח בוט (גם משנת ה2000 שהיה captcha פשוט של תוים בתמונה בלתי קשים) יודע לעשות אירוע קליק, כך שיש לך בעיה בסיסית של לחשוד את כולם בפיגור.החברות עליהם אתה מדבר עובדים כנראה הרבה יותר פשוט, אתה אומר להם את בקשת האינטרנט אותה יש להפעיל והקאלבק איפה יחזור אליך התשובה, הם מפעילים אותה בדפדפן רגיל של אחד העובדים שמול מסך והוא עונה על הגדרת בן אדם ואז התשובה מגיעה למחשב שלהם ונשלחת משמה אליך. גם זה מצריך הרבה תחכום טכנולוגי מעבר לכח אדם כי הם צריכים לזייף שפע של פרטים כדי לא להיתפס.
-
@dovid
כנראה יש עוד מדומיינים כמוני
למשל כותב המאמר הזה
טוען שאפשר לשלוח לחברה את המפתח היחודי של reCaptcha
והחברה תקבל את השאלה ותשלח חזרה את הטוקן התואם ושאפשר לעבור את החסימה של reCaptcha ע"י הטוקן הנ"ל,
נשמע לי מוזר, אבל הוא טוען (בסוף המאמר) שהסיבה לכך זה היא שreCaptcha נועד רק לחסימת בוטים ששולחים אלפי בקשות בו זמנית ומעמיסים על השרת, ולא לחסום את מי שרוצה לבנות לעצמו בוט קטן שישלח הודעות בשמו או משהו כזה.
יכול להיות שיש לי בעיות בהבנת הנקרא (הקריאה שלי באנגלית די איטית ואני מדלג קטעים שנראים לי פחות חשובים)
תקן אותי אם אני טועה