הורדת תמונות מאתר

שמואל

לאחר שאני מקבל ב-WebRequest נתונים מדף של אתר,
אני מעוניין לבצע ע"י הקוד שמירה בשם (הורדה) לכל התמונות שנמצאים בדף - כאשר על הדף נמצא רק ה-src של התמונות כמו"כ לפעמים התמונות מוצגות כ-PDF
תודה לכולם

פורסם במקור בפורום CODE613 ב21/10/2015 10:15 (+03:00)

softs

https://www.google.co.il/search?q=C%23+download+all+pictures+from+website&gws_rd=ssl

פורסם במקור בפורום CODE613 ב21/10/2015 13:01 (+03:00)

dovid

אני כעת רואה את תשובתו של soft. זה מה שכתבתי לפני שראיתי:
זו שאלה נדושה באינטרנט, חפש "C# html download all images".
אכתוב לך מה כותבים על זה באינטרנט אחרי שכבר עשיתי זאת בעבר כמה פעמים:
בשביל לעבד HTML - כמו כאן שאתה צריך לסרוק את כל תגיות הimg ולהוציא את האטריביוט img, הכי קל זה להשתמש בחבילה htmlAgilityPack - ניתן להתקנה קלה בNuget Package Manager.
הקוד לאסוף את הערכים יכול להיות ככה:

var document = new HtmlWeb().Load(url);
var urls = document.DocumentNode.Descendants("img")
                                .Select(e => e.GetAttributeValue("src", null))
                                .Where(s => !String.IsNullOrEmpty(s));

אח"כ אתה עובד בלולאה על הכתובות. ומוריד את הקבצים. עליך לוודא שהכתובת מוחלטת ולא יחסית (אפשר להמיר מיחסי למוחלט ע"י המחלקה Uri.
@שמואל

כמו"כ לפעמים התמונות מוצגות כ-PDF
תודה לכולם

תן דוגמה.

פורסם במקור בפורום CODE613 ב21/10/2015 14:07 (+03:00)

שמואל

תודה לכולם
אעדכן בעז"ה כשייושם

פורסם במקור בפורום CODE613 ב22/10/2015 19:05 (+03:00)

שמואל

אני מצרף דוגמא לקישור לקובץ PDF

שם השיטה לא עבדה לי נראה לי שזה יותר קשור ל- Strem אבל עדיין לא הסתדרתי
כמובן שלא מדובר על הקובץ הזה ספציפי
תודה

פורסם במקור בפורום CODE613 ב26/10/2015 11:21 (+02:00)

dovid

אתה מנסה להוריד את הPDF? דרך סריקת דף HTML שמכיל את הקישור שלו?
או שמא הPDF הזה עם קישורים שאותם אתה מנסה להוריד?
תוכל לפרט?

פורסם במקור בפורום CODE613 ב26/10/2015 13:09 (+02:00)

שמואל

ל-PDF שמוצג בדף יש קישורים (src)
אליהם אני מנסה לגשת כדי להוריד את הקובץ/בייטים

פורסם במקור בפורום CODE613 ב26/10/2015 19:40 (+02:00)

dovid

@דוד ל.ט.

אתה מנסה להוריד את הPDF? דרך סריקת דף HTML שמכיל את הקישור שלו?
או שמא הPDF הזה עם קישורים שאותם אתה מנסה להוריד?
תוכל לפרט?

@שמואל

ל-PDF שמוצג בדף יש קישורים (src)
אליהם אני מנסה לגשת כדי להוריד את הקובץ/בייטים

:evil:

פורסם במקור בפורום CODE613 ב26/10/2015 20:22 (+02:00)

dovid

אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?

פורסם במקור בפורום CODE613 ב26/10/2015 20:46 (+02:00)

softs

עד שתתקבל תשובה בהירה אנסה גם אני את מזלי במשחק הניחושים פה
אולי כוונת המחבר ללינקים שיושבים בתוך קובץ pdf ?
אם כן אולי זה יעזור בשביל נקודת מוצא:
https://github.com/hubgit/hubgit.github.com/tree/master/2011/11/pdftotext

פורסם במקור בפורום CODE613 ב26/10/2015 21:27 (+02:00)

שמואל

סליחה על שלא הוסבר ברור,
הקישור שהבאתי הינו לקובץ PDF שמוצג בתוך דף HTML
כל מה שהייתי רוצה לעשות הוא להוריד את קובץ ה-PDF המוצג ולשמרו אצלי במחשב
תודה

פורסם במקור בפורום CODE613 ב27/10/2015 00:57 (+02:00)

dovid

דבר ראשון, אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.
דבר שני אתה אכן מאוד לא ברור.

@שמואל

הקישור שהבאתי הינו לקובץ PDF [u:knm3plgw]שמוצג[/u:knm3plgw] בתוך דף HTML

אתה חוזר על אותם מילים בלי להרגיש את אי הבהירות.
@דוד ל.ט.

@שמואל
כמו"כ לפעמים [u:knm3plgw]התמונות מוצגות[/u:knm3plgw] כ-PDF

תודה לכולם

תן דוגמה.

כוונת בקשת הדוגמה היא על דף הHTML. בתשובה לכך הבאת קישור לקובץ PDF.
הקישור שהבאת אני יודע בדיוק מהו. והוא לא הוסיף מאומה. כי המילים "קובץ מוצג" או ה"מוצג בדף HTML" הוא חידה: איך מוצג? תוכל להביא דוגמא (ביקשתי לפני עשרה הודעות...)? האם זה קישור קלאסי בדיוק כמו שהבאת פה ע"י התגית a של HTML (ולא מוצג כלום, פשוט יש קישור לחיץ שמוריד את הקובץ, וכל לשונות ה"מוצג" לא דק, ואותו הדבר הכותרת שפתחה בתמונות "הורדת תמונות מאתר" וסיימה בלינקים) או שיש תצוגה מקדימה בגוף האתר?
@דוד ל.ט.

אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?

פורסם במקור בפורום CODE613 ב27/10/2015 11:08 (+02:00)

שמואל

הקישור שהבאתי לך הוא אחד מתוך אוסף של קישורים בדף HTML
הקישור שהעליתי מפנה לקובץ PDF שאותו אני מעוניין לשמור אצלי במחשב
כאשר הקישור היה מופנה ל-Img הצלחתי להסתדר ולשמרו במחשב
אך כאשר המשאב הינו PDF לא הצלחתי להורידו אלי למחשב
@שמואל

הקישור שהבאתי הינו לקובץ PDF שמוצג בתוך דף HTML

כוונתי הייתה שכאשר אכניס את הקישור לשורת ה- Url תתקבל תצוגת Pdf

@דוד ל.ט.

אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.

מקובל, ואוהבו שוחרו מוסר...

פורסם במקור בפורום CODE613 ב27/10/2015 15:10 (+02:00)

שמואל

להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק

תודה לכל העוזרים

פורסם במקור בפורום CODE613 ב27/10/2015 19:42 (+02:00)

magicode

הסיבה שכולם פה. לא ענו תשובה. זה כי כולם חשבו שמדובר ביותר מסתם להוריד קישור.

פורסם במקור בפורום CODE613 ב27/10/2015 21:05 (+02:00)

dovid

@שמואל

להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק

תודה לכל העוזרים

אתה אכן הלכת רחוק.
הורדת קובץ זה אותו קוד בין אם מדובר בתמונה או בPDF. וזה הקוד שמופיע בתשובה שם.
(אני לא חשבתי שזה מה שאתה צריך: להוריד קובץ מהאינטרנט. לכן את זה לא עניתי לך כלל אפי' לגבי התמונות, אלא התמקדתי במה שחשבתי שאתה שואל: סריקת הHTML וחילוץ הURL של אלמנטי תמונות (img).
אם אתה אכן צריך סריקה אז יש הבדל גדול בין img שאתה רשאי להניח שהURL הוא תמונה, לבין קישור רגיל (אלמנט a כשURL נמצא בhref) שם אתה מוכרח לבדוק את סוג הקובץ 1. בשביל לא להוריד כמויות של HTML וכדומה 2. בשביל לדעת באיזה סיומת (ועל הדרך גם איזה שם) לשמור את הקובץ.
אז לסיכום לסריקת קישורים והורדת PDF צריך:
א. לסרוק את כל הhref של תגיות a
ב. להתחיל להוריד את הכותרות [Header] בלבד ולבדוק את הערך של "Content-Type", זה כדי לבדוק שמדובר בסוג קובץ שאתה רוצה להוריד (לא תרצה להוריד את כל הHTML המקושרים לאותו הדף), PDF למשל הContent-Type שלו הוא "application/pdf".
ג. להוריד את הקובץ..

פורסם במקור בפורום CODE613 ב28/10/2015 11:01 (+02:00)

תחומים - פורום חרדי מקצועי

הורדת תמונות מאתר