-
אני רוצה לשאוב מידע מאתר, בצורה רציפה.
על כל משתמש בפרוייקט שלי, אני לוקח את המידע בנפרד (קוראים לזה 'לגרד', או שזה תרגום טרנסלייט כושל?), כך שיכולים להיות מאה חיבורים ואפילו יותר.באיזשהו שלב, האתר ההוא מתרגז, ושם קאפאצ'ה.
אז אני רוצה להשתמש בשרתי פרוקסי.בינתיים ראיתי שהפרוקסי החינמי, מאוד איטי, ולא תמיד עובד.
בחיפוש בגוגל, מצאתי שרתים יקרים (500 - 1000 דולר בחודש),
או את השירות הזה https://proxybot.io/ שמספק API לשאיבת מידע מאתרים בתשלום פר בקשה, אבל הוא מגיב מאוד באיטיות (13,000 ms!).מישהו מכיר שרתי פרוקסי בתשלום, אבל לא יקר, ומהיר?
-
@MusiCode
כמה?
אם זה עשר כתובות IP אז תקנה לבד את הכתובות
בשביל מה אתה צריך פרוקסי?
אבל בכל מקרה לא בטוח שזה יעזור
יתכן שבעומס מסויים תחסם שוב
והכל ילך לפח.
ואל תשכח שאם יש עוד משתמשים בפרוקסי
אולי הם הכניסו את הכתובות לרשימות שחורות של גוגל. -
בקיצור, זה הכיוון.
להשיג רשימת שרתי פרוקסי, שבעצם ינתבו את הבקשות דרך כמה כתובות IP, וכך לא אקבל קאפאצ'ה.מישהו מכיר שירות אמין?
השירות שהבאתי מקודם (https://proxybot.io/) למשל, נועד למטרה הזאת בדיוק! לעקוף קאפאצ'ות לסוגיהן. אבל הוא איטי, כאמור.
כל השירותים שעולים כסף, אני אצטרך לשלם כדי לבדוק אותם...
אז אשמח אם יש למישהו ידע בעניין, ניסיון בשרתי פרוקסי, או רעיון.
-
דרך אגב, חשבתי שאפילו מתקפת DDoS אפשר ליישם דרך פרוקסי! ולזה, מספיקים שרתי פרוקסי חינמיים ברשת... מעניין איך אפשר להתגונן מזה.
לחסום כללית מי שמגיע מפרוקסי? זה יכול להיות לגיטימי.
אולי לאבחן פרוקסי לפי הכותרות שלו? מעניין.יש קצת מידע על זה...
https://www.google.com/search?q=ddos+in+proxy -
@MusiCode
א. אתה לוקח את המידע בנפרד אפילו שזה אותו מידע? נשמע כמו תכנון שגוי.. (אולי תשתמש במטמון.)
ב. בהתאם להודעת השגיאה כשאתה מקבל קאפצה, אפשר ללמוד המון על מה צריך כדי לא לקבל.. יש הגנות מסוימות שיותר קשות מהשאר.
ג. תוודא שאתה מצרף לבקשות שלך כותרות (headers) טובות ולא כאלו שמזהים אותך כבוט. בנוסף, תשתמש בסלניום וכדומה כדי לקבל את המידע במקום לבקש את הבקשות HTTP ישירות..
ד. יש דרגות של אנונימיות לפרוקסי, וזה בעצם מה שגורם לזהות פרוקסי חינמי כל ועוד הם לא בדרגת "Elite".. (הם מכילים כותרות שחושפות שהם פרוקסי או גרוע מכך - את הIP האמיתי..)
(ip-api.io/json יכול לעזור לבדוק)
ה. יש מלא ריפו'ס בגיטהאב של רשימות פרוקסי חינמיות, מתעדכנות אוטומטי על בסיס קבוע. בנוסף, יש גם כלים שימיינו לך רשימות פרוקסי לפי מהירות ואנונמיות. יש גם כלים שיתנו לך backconnect proxy.
ו. אם לא תסתדר עם האפשרויות החינמיות - יש לי שני הצעות בתשלום, אבל מכיוון ואסור לשלוח כאן קישורי שותפים... אשמח לשלוח לך במייל.פרויקטים רלוונטים מגיטהאב:
https://github.com/assnctr/unfx-proxy-checker
https://github.com/bluet/proxybroker2
https://github.com/imWildCat/scylla
https://github.com/nicksherron/proxi -
בהנחה שאני מנסה עוד קצת עם החינמיים, אז אני צריך בודק פרוקסי טוב, שייתן את האיכות של השרת, ואת העיכוב של התשובות.
היות והפרוייקט שאני עובד עליו הוא ב-Node.js, אני רוצה שהבודק יהיה גם בNODE.
הפרוייקט הכי טוב בנוד הוא https://github.com/assnctr/unfx-proxy-checker.
אבל אני לא מצליח לגשת לAPI שלו.אני מנסה לחפור בתוך הקוד שלו, וזה מאוד מסובך...
יש בודק פרוקסי לנוד מומלץ?
או שאאלץ לבנות לבד... -
אוקיי, הסתדרתי עם chrome-headless.
יש ספרייה לנוד בשם puppeteer לשליטה על כרום.
נראה קל ונוח.את ג'אווה אני לא מכיר, וסלניום נראה לי מסובך מדי.
לעניין אחר:
האתר שאני 'מגרד' חוסם אותי אפילו על בקשה כל דקה, אחרי שעתיים.אפשר להתגבר על זה?
אני אפילו לא יודע אם אני מוגבל במספר בקשות, או בזמן.
אין תוצאות חד משמעיות לשום צד. -