דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תכנות
  3. ארכיון code613m
  4. זיהוי שוני בדפי html

זיהוי שוני בדפי html

מתוזמן נעוץ נעול הועבר ארכיון code613m
5 פוסטים 4 כותבים 402 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • M מנותק
    M מנותק
    magicode
    כתב ב נערך לאחרונה על ידי
    #1

    בשביל הפרייקט החופשי שלי סינון בקוד פתוח.

    https://github.com/magicode/NetFree

    אני רוצה לעשות אפשרות סריקת אתר. נניח עד 1000 דפים מהאתר. והצגת סטיסטיקת מילים.

    עכשיו הבעיה שאני לא רוצה שהוא יעבור על דפים כפולים אפילו שהקישורים שונים.

    אז חשבתי לעשות hash לכל דף וככה להשוות אם הוא כבר נבדק. אבל יש דפים שיש בהם תוכן רנדומלי. או תוכן של שעון.

    האם יש לכם רעינות איך לממש את זה בצורה הכי טובה.

    תודה.

    פורסם במקור בפורום CODE613 ב05/01/2014 13:42 (+02:00)

    תגובה 1 תגובה אחרונה
    0
    • א מנותק
      א מנותק
      ארכיטקט
      כתב ב נערך לאחרונה על ידי
      #2

      קודם כל זה מן הסתם נדיר ביותר תוכן שווה וקישורים שונים, אלא אם כן מדובר בתוכן קבוע שמופיע בראש או בתחתית.

      דבר שני נראה שאפילו גוגל לא מתמודדים עם זה, כלומר זיהוי תוכן זאת משימה קשה מאוד, ואתה רואה בתוצאות חיפוש לפעמים שהאינדקס של גוגל רושם את הדף עם כל מיני חומרים קבועים שנמצאים בפנים כגון שתף בפייסבוק, הירשם לקבלת מנוי, וכיוצא בזה. זה מבחינת האינדקס חלק בלתי נפרד מהדף.

      דבר שלישי, נראה לי שלא יקרה כלום אם פה ושם יהיו דפים כפולים, העלות של האלגוריתם הזה, עם הסיכון שבו שכל טעות עלולה להשמיט דפים שלמים שהרובוט לא יעבור עליהם, לא שווה את התועלת של חיסכון בעוד כמה בתים...

      בהצלחה.

      פורסם במקור בפורום CODE613 ב05/01/2014 13:47 (+02:00)

      אידיאולוגיות גדולות נכנסות למטחנה של עולם המעשה ויוצאות ממנו בפירורים (ווינסטון צ'רצ'יל, סתם סתם, זה שלי)

      תגובה 1 תגובה אחרונה
      0
      • K מנותק
        K מנותק
        kingyes
        כתב ב נערך לאחרונה על ידי
        #3

        לדעתי לעבוד עם hash זאת הדרך הכי מהירה בשביל לבדוק אם התוכן שונה או לא.

        פורסם במקור בפורום CODE613 ב05/01/2014 13:59 (+02:00)

        תגובה 1 תגובה אחרונה
        0
        • clickoneC מנותק
          clickoneC מנותק
          clickone
          כתב ב נערך לאחרונה על ידי
          #4

          [size=200:2cbjs4s4]קודם כל קבל פירגון ענק על הרעיון!![/size:2cbjs4s4]
          הוא יהיה זמין גם לווינדוס?
          אפשר להציע גם טישטוש תמונות כמו שעשו בנט-צח? (בעצם זיהוי של טווח הצבעים של הפנים ואז הפיכה שלהם לערך 0 שזה שחור.)
          מעניין אותי, (כי ניסיתי בעבר לממש משהו דומה) השתמשת בליסינר כשרת פרוקסי? איך גרמת לקישורים מותרים לעבור ולא לחזור בלופ לליסנר? דרך פורט שונה?
          אגב, נראה שזה יכול לעבוד גם באנדרואיד (היא בנוייה על לינוקס)

          [size=150:2cbjs4s4]בהצלחה!!!![/size:2cbjs4s4]

          פורסם במקור בפורום CODE613 ב05/01/2014 22:51 (+02:00)

          אין טסט כמו פרודקשן.

          המייל שלי urivpn@gmail.com

          תגובה 1 תגובה אחרונה
          2
          • M מנותק
            M מנותק
            magicode
            כתב ב נערך לאחרונה על ידי
            #5

            @ClickOne

            הוא יהיה זמין גם לווינדוס?

            הוא יכול לעבוד על וינדוס. אני רוצה שהוא יעבוד אצל ספקי אינטרנט לצורך כך אני בתהליך של יצירת קשר עם ספקי אינטרנט.

            @ClickOne

            אפשר להציע גם טישטוש תמונות כמו שעשו בנט-צח? (בעצם זיהוי של טווח הצבעים של הפנים ואז הפיכה שלהם לערך 0 שזה שחור.)

            עשיתי את זה. וזה עובד יותר טוב משל נטצח.

            @ClickOne

            מעניין אותי, (כי ניסיתי בעבר לממש משהו דומה) השתמשת בליסינר כשרת פרוקסי? איך גרמת לקישורים מותרים לעבור ולא לחזור בלופ לליסנר?
            דרך פורט שונה?
            אגב, נראה שזה יכול לעבוד גם באנדרואיד (היא בנוייה על לינוקס)

            לא יודע מה זה "ליסינר" וזה לא עובד על זה. זה שרת פרוקסי שבניתי אותו על פטפורמה של nodejs מהתחלה ועד הסוף.

            זה כתוב בjs (שפה הכי קלה וגמישה שאני מכיר וגם מתקמפלת בזמן אמת)

            כל אחד מוזמן להצטרף לפרוייקט. אפשר גם לתת רעיונות.

            פורסם במקור בפורום CODE613 ב06/01/2014 13:34 (+02:00)

            תגובה 1 תגובה אחרונה
            2

            בא תתחבר לדף היומי!
            • התחברות

            • אין לך חשבון עדיין? הרשמה

            • התחברו או הירשמו כדי לחפש.
            • פוסט ראשון
              פוסט אחרון
            0
            • דף הבית
            • קטגוריות
            • פוסטים אחרונים
            • משתמשים
            • חיפוש
            • חוקי הפורום