זיהוי שוני בדפי html
-
בשביל הפרייקט החופשי שלי סינון בקוד פתוח.
https://github.com/magicode/NetFree
אני רוצה לעשות אפשרות סריקת אתר. נניח עד 1000 דפים מהאתר. והצגת סטיסטיקת מילים.
עכשיו הבעיה שאני לא רוצה שהוא יעבור על דפים כפולים אפילו שהקישורים שונים.
אז חשבתי לעשות hash לכל דף וככה להשוות אם הוא כבר נבדק. אבל יש דפים שיש בהם תוכן רנדומלי. או תוכן של שעון.
האם יש לכם רעינות איך לממש את זה בצורה הכי טובה.
תודה.
פורסם במקור בפורום CODE613 ב05/01/2014 13:42 (+02:00)
-
קודם כל זה מן הסתם נדיר ביותר תוכן שווה וקישורים שונים, אלא אם כן מדובר בתוכן קבוע שמופיע בראש או בתחתית.
דבר שני נראה שאפילו גוגל לא מתמודדים עם זה, כלומר זיהוי תוכן זאת משימה קשה מאוד, ואתה רואה בתוצאות חיפוש לפעמים שהאינדקס של גוגל רושם את הדף עם כל מיני חומרים קבועים שנמצאים בפנים כגון שתף בפייסבוק, הירשם לקבלת מנוי, וכיוצא בזה. זה מבחינת האינדקס חלק בלתי נפרד מהדף.
דבר שלישי, נראה לי שלא יקרה כלום אם פה ושם יהיו דפים כפולים, העלות של האלגוריתם הזה, עם הסיכון שבו שכל טעות עלולה להשמיט דפים שלמים שהרובוט לא יעבור עליהם, לא שווה את התועלת של חיסכון בעוד כמה בתים...
בהצלחה.
פורסם במקור בפורום CODE613 ב05/01/2014 13:47 (+02:00)
-
[size=200:2cbjs4s4]קודם כל קבל פירגון ענק על הרעיון!![/size:2cbjs4s4]
הוא יהיה זמין גם לווינדוס?
אפשר להציע גם טישטוש תמונות כמו שעשו בנט-צח? (בעצם זיהוי של טווח הצבעים של הפנים ואז הפיכה שלהם לערך 0 שזה שחור.)
מעניין אותי, (כי ניסיתי בעבר לממש משהו דומה) השתמשת בליסינר כשרת פרוקסי? איך גרמת לקישורים מותרים לעבור ולא לחזור בלופ לליסנר? דרך פורט שונה?
אגב, נראה שזה יכול לעבוד גם באנדרואיד (היא בנוייה על לינוקס)[size=150:2cbjs4s4]בהצלחה!!!![/size:2cbjs4s4]
פורסם במקור בפורום CODE613 ב05/01/2014 22:51 (+02:00)
-
הוא יהיה זמין גם לווינדוס?
הוא יכול לעבוד על וינדוס. אני רוצה שהוא יעבוד אצל ספקי אינטרנט לצורך כך אני בתהליך של יצירת קשר עם ספקי אינטרנט.
אפשר להציע גם טישטוש תמונות כמו שעשו בנט-צח? (בעצם זיהוי של טווח הצבעים של הפנים ואז הפיכה שלהם לערך 0 שזה שחור.)
עשיתי את זה. וזה עובד יותר טוב משל נטצח.
מעניין אותי, (כי ניסיתי בעבר לממש משהו דומה) השתמשת בליסינר כשרת פרוקסי? איך גרמת לקישורים מותרים לעבור ולא לחזור בלופ לליסנר?
דרך פורט שונה?
אגב, נראה שזה יכול לעבוד גם באנדרואיד (היא בנוייה על לינוקס)לא יודע מה זה "ליסינר" וזה לא עובד על זה. זה שרת פרוקסי שבניתי אותו על פטפורמה של nodejs מהתחלה ועד הסוף.
זה כתוב בjs (שפה הכי קלה וגמישה שאני מכיר וגם מתקמפלת בזמן אמת)
כל אחד מוזמן להצטרף לפרוייקט. אפשר גם לתת רעיונות.
פורסם במקור בפורום CODE613 ב06/01/2014 13:34 (+02:00)