הורדת תמונות מאתר
-
אני כעת רואה את תשובתו של soft. זה מה שכתבתי לפני שראיתי:
זו שאלה נדושה באינטרנט, חפש "C# html download all images".
אכתוב לך מה כותבים על זה באינטרנט אחרי שכבר עשיתי זאת בעבר כמה פעמים:
בשביל לעבד HTML - כמו כאן שאתה צריך לסרוק את כל תגיות הimg ולהוציא את האטריביוט img, הכי קל זה להשתמש בחבילה htmlAgilityPack - ניתן להתקנה קלה בNuget Package Manager.
הקוד לאסוף את הערכים יכול להיות ככה:var document = new HtmlWeb().Load(url); var urls = document.DocumentNode.Descendants("img") .Select(e => e.GetAttributeValue("src", null)) .Where(s => !String.IsNullOrEmpty(s));
אח"כ אתה עובד בלולאה על הכתובות. ומוריד את הקבצים. עליך לוודא שהכתובת מוחלטת ולא יחסית (אפשר להמיר מיחסי למוחלט ע"י המחלקה Uri.
@שמואלכמו"כ לפעמים התמונות מוצגות כ-PDF
תודה לכולםתן דוגמה.
פורסם במקור בפורום CODE613 ב21/10/2015 14:07 (+03:00)
-
-
אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?פורסם במקור בפורום CODE613 ב26/10/2015 20:46 (+02:00)
-
עד שתתקבל תשובה בהירה אנסה גם אני את מזלי במשחק הניחושים פה
אולי כוונת המחבר ללינקים שיושבים בתוך קובץ pdf ?
אם כן אולי זה יעזור בשביל נקודת מוצא:
https://github.com/hubgit/hubgit.github.com/tree/master/2011/11/pdftotextפורסם במקור בפורום CODE613 ב26/10/2015 21:27 (+02:00)
-
דבר ראשון, אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.
דבר שני אתה אכן מאוד לא ברור.הקישור שהבאתי הינו לקובץ PDF [u:knm3plgw]שמוצג[/u:knm3plgw] בתוך דף HTML
אתה חוזר על אותם מילים בלי להרגיש את אי הבהירות.
@דוד ל.ט.@שמואל
כמו"כ לפעמים [u:knm3plgw]התמונות מוצגות[/u:knm3plgw] כ-PDFתודה לכולם
תן דוגמה.
כוונת בקשת הדוגמה היא על דף הHTML. בתשובה לכך הבאת קישור לקובץ PDF.
הקישור שהבאת אני יודע בדיוק מהו. והוא לא הוסיף מאומה. כי המילים "קובץ מוצג" או ה"מוצג בדף HTML" הוא חידה: איך מוצג? תוכל להביא דוגמא (ביקשתי לפני עשרה הודעות...)? האם זה קישור קלאסי בדיוק כמו שהבאת פה ע"י התגית a של HTML (ולא מוצג כלום, פשוט יש קישור לחיץ שמוריד את הקובץ, וכל לשונות ה"מוצג" לא דק, ואותו הדבר הכותרת שפתחה בתמונות "הורדת תמונות מאתר" וסיימה בלינקים) או שיש תצוגה מקדימה בגוף האתר?
@דוד ל.ט.אני נוטה להבין שכוונתך שכמו שאתה עובר ל התמונות ומורידם, אתה רוצה גם לעבור על הקישורים (שנמצאים בדף HTML) ולהוריד את משאב היעד שלהם (שבמקרה אתה מתעכב על דוגמת PDF אבל יש את כל סוגי התכנים שמתקבלים מURL).
הבנתי נכון?פורסם במקור בפורום CODE613 ב27/10/2015 11:08 (+02:00)
-
הקישור שהבאתי לך הוא אחד מתוך אוסף של קישורים בדף HTML
הקישור שהעליתי מפנה לקובץ PDF שאותו אני מעוניין לשמור אצלי במחשב
כאשר הקישור היה מופנה ל-Img הצלחתי להסתדר ולשמרו במחשב
אך כאשר המשאב הינו PDF לא הצלחתי להורידו אלי למחשב
@שמואלהקישור שהבאתי הינו לקובץ PDF שמוצג בתוך דף HTML
כוונתי הייתה שכאשר אכניס את הקישור לשורת ה- Url תתקבל תצוגת Pdf
@דוד ל.ט.
אנא אל תקח אישי שאני תוקף חוסר בהירות. מבחינתי אני עוזר בפורום גם לכושר ביטוי וגם לתכנות נכון.
מקובל, ואוהבו שוחרו מוסר...
פורסם במקור בפורום CODE613 ב27/10/2015 15:10 (+02:00)
-
להלן הפיתרון הקצר שמשום מה הלכתי בשבילו מדי רחוק
תודה לכל העוזרים
אתה אכן הלכת רחוק.
הורדת קובץ זה אותו קוד בין אם מדובר בתמונה או בPDF. וזה הקוד שמופיע בתשובה שם.
(אני לא חשבתי שזה מה שאתה צריך: להוריד קובץ מהאינטרנט. לכן את זה לא עניתי לך כלל אפי' לגבי התמונות, אלא התמקדתי במה שחשבתי שאתה שואל: סריקת הHTML וחילוץ הURL של אלמנטי תמונות (img).
אם אתה אכן צריך סריקה אז יש הבדל גדול בין img שאתה רשאי להניח שהURL הוא תמונה, לבין קישור רגיל (אלמנט a כשURL נמצא בhref) שם אתה מוכרח לבדוק את סוג הקובץ 1. בשביל לא להוריד כמויות של HTML וכדומה 2. בשביל לדעת באיזה סיומת (ועל הדרך גם איזה שם) לשמור את הקובץ.
אז לסיכום לסריקת קישורים והורדת PDF צריך:
א. לסרוק את כל הhref של תגיות a
ב. להתחיל להוריד את הכותרות [Header] בלבד ולבדוק את הערך של "Content-Type", זה כדי לבדוק שמדובר בסוג קובץ שאתה רוצה להוריד (לא תרצה להוריד את כל הHTML המקושרים לאותו הדף), PDF למשל הContent-Type שלו הוא "application/pdf".
ג. להוריד את הקובץ..פורסם במקור בפורום CODE613 ב28/10/2015 11:01 (+02:00)