@שמואל
להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק
תודה לכל העוזרים
אתה אכן הלכת רחוק.
הורדת קובץ זה אותו קוד בין אם מדובר בתמונה או בPDF. וזה הקוד שמופיע בתשובה שם.
(אני לא חשבתי שזה מה שאתה צריך: להוריד קובץ מהאינטרנט. לכן את זה לא עניתי לך כלל אפי' לגבי התמונות, אלא התמקדתי במה שחשבתי שאתה שואל: סריקת הHTML וחילוץ הURL של אלמנטי תמונות (img).
אם אתה אכן צריך סריקה אז יש הבדל גדול בין img שאתה רשאי להניח שהURL הוא תמונה, לבין קישור רגיל (אלמנט a כשURL נמצא בhref) שם אתה מוכרח לבדוק את סוג הקובץ 1. בשביל לא להוריד כמויות של HTML וכדומה 2. בשביל לדעת באיזה סיומת (ועל הדרך גם איזה שם) לשמור את הקובץ.
אז לסיכום לסריקת קישורים והורדת PDF צריך:
א. לסרוק את כל הhref של תגיות a
ב. להתחיל להוריד את הכותרות [Header] בלבד ולבדוק את הערך של "Content-Type", זה כדי לבדוק שמדובר בסוג קובץ שאתה רוצה להוריד (לא תרצה להוריד את כל הHTML המקושרים לאותו הדף), PDF למשל הContent-Type שלו הוא "application/pdf".
ג. להוריד את הקובץ..
פורסם במקור בפורום CODE613 ב28/10/2015 11:01 (+02:00)