איך מזהים קידוד ואיך ממירים מקידוד לקידוד
-
טוב, הסיפור מתחילתו..
אני רוצה להוריד את הטקסט מפה ע"י לינק כמו זה.זה מופיע כקשקושים, מדוע? בפיירפוקס הטקסט ברור כשאני בוחר בקידוד יוניקוד, זה בעצם UTF-8 או שהם 2 דברים שונים?
כשאני משווה את הטקסט הזה עם טקסט זהה שנמצא בקובץ TXT (טקסט נקי), הכל מצוין כשונה.
אני מניח שזה בגלל הקידודים השונים.איך מתגברים ע"ז?
-
@אהרן אמר באיך מזהים קידוד ואיך ממירים מקידוד לקידוד:
כשאני בוחר בקידוד יוניקוד, זה בעצם UTF-8 או שהם 2 דברים שונים?
UTF-8 זה סוג מסוים של תקן יוניקוד
ציטוט מהמכלול:
תקן מקובל לייצוג טקסט לפני יוניקוד היה ASCII, שייצג את האלפבית הלטיני הפשוט (ללא אקצנטים וכו'), מספרים וסימני פיסוק בקידוד של 7 סיביות. כדי לתמוך בתווים נוספים הורחב ייצוג זה לקידוד של 8 סיביות, שכל אחד מהם הכיל 256 תווים: 128 תווי ASCII ו-128 תווים אחרים לפי האזור. כך למשל, המספר 224 הכיל את האות à בקידוד של מערב אירופה ואת האות א בקידוד העברי. דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. ב־1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.תחילה (כלומר עד לגרסה 2.0) התבסס יוניקוד על קידוד של 16 סיביות, היכול להכיל 65,536 תווים. לאחר שתוקנו תווים רבים לצורכי תאימות (כגון הברות קוריאניות), היה ברור כי אין זה מספר מספיק לכל הצרכים העולמיים, וגרסה 2.0 של יוניקוד הורחבה להכיל 1,112,064 תווים באמצעות מנגנון UTF-16, שבו 2048 קודים מנוצלים כדי לייצג יותר ממיליון תווים. בגרסה 3.1 של יוניקוד הותקנו התווים הראשונים מעבר לתחום ה־65,536 העליונים (המשטח הרב־לשוני הבסיסי), וקידוד יוניקוד ניתן לבצע באחת משלוש צורות: UTF-8, UTF-16 ו־UTF-32. הראשונה משמשת באינטרנט ובלינוקס, השנייה ב־Java ובחלונות, והאחרונה בתור קידוד פנימי (בתוך הזיכרון) של מערכות יוניקס מסוימות.