הורדת תמונות מאתר
-
לאחר שאני מקבל ב-WebRequest נתונים מדף של אתר,
אני מעוניין לבצע ע"י הקוד שמירה בשם (הורדה) לכל התמונות שנמצאים בדף - כאשר על הדף נמצא רק ה-src של התמונות כמו"כ לפעמים התמונות מוצגות כ-PDF
תודה לכולםפורסם במקור בפורום CODE613 ב21/10/2015 10:15 (+03:00)
-
https://www.google.co.il/search?q=C%23+download+all+pictures+from+website&gws_rd=ssl
פורסם במקור בפורום CODE613 ב21/10/2015 13:01 (+03:00)
-
אני כעת רואה את תשובתו של soft. זה מה שכתבתי לפני שראיתי:
זו שאלה נדושה באינטרנט, חפש "C# html download all images".
אכתוב לך מה כותבים על זה באינטרנט אחרי שכבר עשיתי זאת בעבר כמה פעמים:
בשביל לעבד HTML - כמו כאן שאתה צריך לסרוק את כל תגיות הimg ולהוציא את האטריביוט img, הכי קל זה להשתמש בחבילה htmlAgilityPack - ניתן להתקנה קלה בNuget Package Manager.
הקוד לאסוף את הערכים יכול להיות ככה:var document = new HtmlWeb().Load(url); var urls = document.DocumentNode.Descendants("img") .Select(e => e.GetAttributeValue("src", null)) .Where(s => !String.IsNullOrEmpty(s)); אח"כ אתה עובד בלולאה על הכתובות. ומוריד את הקבצים. עליך לוודא שהכתובת מוחלטת ולא יחסית (אפשר להמיר מיחסי למוחלט ע"י המחלקה Uri.
@שמואלכמו"כ לפעמים התמונות מוצגות כ-PDF
תודה לכולםתן דוגמה.
פורסם במקור בפורום CODE613 ב21/10/2015 14:07 (+03:00)
-
תודה לכולם
אעדכן בעז"ה כשייושםפורסם במקור בפורום CODE613 ב22/10/2015 19:05 (+03:00)
-
אני מצרף דוגמא לקישור לקובץ PDF
שם השיטה לא עבדה לי נראה לי שזה יותר קשור ל- Strem אבל עדיין לא הסתדרתי
כמובן שלא מדובר על הקובץ הזה ספציפי
תודהפורסם במקור בפורום CODE613 ב26/10/2015 11:21 (+02:00)
-
ל-PDF שמוצג בדף יש קישורים (src)
אליהם אני מנסה לגשת כדי להוריד את הקובץ/בייטיםפורסם במקור בפורום CODE613 ב26/10/2015 19:40 (+02:00)
-
-
אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?פורסם במקור בפורום CODE613 ב26/10/2015 20:46 (+02:00)
-
עד שתתקבל תשובה בהירה אנסה גם אני את מזלי במשחק הניחושים פה
אולי כוונת המחבר ללינקים שיושבים בתוך קובץ pdf ?
אם כן אולי זה יעזור בשביל נקודת מוצא:
https://github.com/hubgit/hubgit.github.com/tree/master/2011/11/pdftotextפורסם במקור בפורום CODE613 ב26/10/2015 21:27 (+02:00)
-
סליחה על שלא הוסבר ברור,
הקישור שהבאתי הינו לקובץ PDF שמוצג בתוך דף HTML
כל מה שהייתי רוצה לעשות הוא להוריד את קובץ ה-PDF המוצג ולשמרו אצלי במחשב
תודהפורסם במקור בפורום CODE613 ב27/10/2015 00:57 (+02:00)
-
דבר ראשון, אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.
דבר שני אתה אכן מאוד לא ברור.הקישור שהבאתי הינו לקובץ PDF [u:knm3plgw]שמוצג[/u:knm3plgw] בתוך דף HTML
אתה חוזר על אותם מילים בלי להרגיש את אי הבהירות.
@דוד ל.ט.@שמואל
כמו"כ לפעמים [u:knm3plgw]התמונות מוצגות[/u:knm3plgw] כ-PDFתודה לכולם
תן דוגמה.
כוונת בקשת הדוגמה היא על דף הHTML. בתשובה לכך הבאת קישור לקובץ PDF.
הקישור שהבאת אני יודע בדיוק מהו. והוא לא הוסיף מאומה. כי המילים "קובץ מוצג" או ה"מוצג בדף HTML" הוא חידה: איך מוצג? תוכל להביא דוגמא (ביקשתי לפני עשרה הודעות...)? האם זה קישור קלאסי בדיוק כמו שהבאת פה ע"י התגית a של HTML (ולא מוצג כלום, פשוט יש קישור לחיץ שמוריד את הקובץ, וכל לשונות ה"מוצג" לא דק, ואותו הדבר הכותרת שפתחה בתמונות "הורדת תמונות מאתר" וסיימה בלינקים) או שיש תצוגה מקדימה בגוף האתר?
@דוד ל.ט.אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?פורסם במקור בפורום CODE613 ב27/10/2015 11:08 (+02:00)
-
הקישור שהבאתי לך הוא אחד מתוך אוסף של קישורים בדף HTML
הקישור שהעליתי מפנה לקובץ PDF שאותו אני מעוניין לשמור אצלי במחשב
כאשר הקישור היה מופנה ל-Img הצלחתי להסתדר ולשמרו במחשב
אך כאשר המשאב הינו PDF לא הצלחתי להורידו אלי למחשב
@שמואלהקישור שהבאתי הינו לקובץ PDF שמוצג בתוך דף HTML
כוונתי הייתה שכאשר אכניס את הקישור לשורת ה- Url תתקבל תצוגת Pdf
@דוד ל.ט.
אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.
מקובל, ואוהבו שוחרו מוסר...
פורסם במקור בפורום CODE613 ב27/10/2015 15:10 (+02:00)
-
להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק
תודה לכל העוזרים
פורסם במקור בפורום CODE613 ב27/10/2015 19:42 (+02:00)
-
הסיבה שכולם פה. לא ענו תשובה. זה כי כולם חשבו שמדובר ביותר מסתם להוריד קישור.
פורסם במקור בפורום CODE613 ב27/10/2015 21:05 (+02:00)
-
להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק
תודה לכל העוזרים
אתה אכן הלכת רחוק.
הורדת קובץ זה אותו קוד בין אם מדובר בתמונה או בPDF. וזה הקוד שמופיע בתשובה שם.
(אני לא חשבתי שזה מה שאתה צריך: להוריד קובץ מהאינטרנט. לכן את זה לא עניתי לך כלל אפי' לגבי התמונות, אלא התמקדתי במה שחשבתי שאתה שואל: סריקת הHTML וחילוץ הURL של אלמנטי תמונות (img).
אם אתה אכן צריך סריקה אז יש הבדל גדול בין img שאתה רשאי להניח שהURL הוא תמונה, לבין קישור רגיל (אלמנט a כשURL נמצא בhref) שם אתה מוכרח לבדוק את סוג הקובץ 1. בשביל לא להוריד כמויות של HTML וכדומה 2. בשביל לדעת באיזה סיומת (ועל הדרך גם איזה שם) לשמור את הקובץ.
אז לסיכום לסריקת קישורים והורדת PDF צריך:
א. לסרוק את כל הhref של תגיות a
ב. להתחיל להוריד את הכותרות [Header] בלבד ולבדוק את הערך של "Content-Type", זה כדי לבדוק שמדובר בסוג קובץ שאתה רוצה להוריד (לא תרצה להוריד את כל הHTML המקושרים לאותו הדף), PDF למשל הContent-Type שלו הוא "application/pdf".
ג. להוריד את הקובץ..פורסם במקור בפורום CODE613 ב28/10/2015 11:01 (+02:00)
5/16