תחומים
    • הרשמה
    • התחברות
    • חיפוש
    • קטגוריות
    • פוסטים אחרונים
    • משתמשים
    • חיפוש
    חוקי הפורום

    איך מזהים קידוד ואיך ממירים מקידוד לקידוד

    תכנות
    3
    5
    339
    טוען פוסטים נוספים
    • מהישן לחדש
    • מהחדש לישן
    • הכי הרבה הצבעות
    תגובה
    • הגב כנושא
    התחבר בכדי לפרסם תגובה
    נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
    • א
      אהרן נערך לאחרונה על ידי

      טוב, הסיפור מתחילתו..
      אני רוצה להוריד את הטקסט מפה ע"י לינק כמו זה.

      זה מופיע כקשקושים, מדוע? בפיירפוקס הטקסט ברור כשאני בוחר בקידוד יוניקוד, זה בעצם UTF-8 או שהם 2 דברים שונים?

      כשאני משווה את הטקסט הזה עם טקסט זהה שנמצא בקובץ TXT (טקסט נקי), הכל מצוין כשונה.
      אני מניח שזה בגלל הקידודים השונים.

      איך מתגברים ע"ז?

      zvizvi תגובה 1 תגובה אחרונה תגובה ציטוט 0
      • dovid
        dovid ניהול נערך לאחרונה על ידי

        זה מופיע כקשקושים בדפדפן, כי הדף לא מוגדר כUTF8.
        תוכל להריץ בקונסול fetch ולראות שזה מצויין:

        fetch("/study/mikraseferperek?SeferNum=0&PerekNum=2&mnt=1").then(x=> x.text()).then(txt => console.log(txt))
        

        אפשר ליצור קשר dovid@tchumim.com

        תגובה 1 תגובה אחרונה תגובה ציטוט 1
        • zvizvi
          zvizvi @אהרן נערך לאחרונה על ידי zvizvi

          @אהרן אמר באיך מזהים קידוד ואיך ממירים מקידוד לקידוד:

          כשאני בוחר בקידוד יוניקוד, זה בעצם UTF-8 או שהם 2 דברים שונים?

          UTF-8 זה סוג מסוים של תקן יוניקוד

          ציטוט מהמכלול:
          תקן מקובל לייצוג טקסט לפני יוניקוד היה ASCII, שייצג את האלפבית הלטיני הפשוט (ללא אקצנטים וכו'), מספרים וסימני פיסוק בקידוד של 7 סיביות. כדי לתמוך בתווים נוספים הורחב ייצוג זה לקידוד של 8 סיביות, שכל אחד מהם הכיל 256 תווים: 128 תווי ASCII ו-128 תווים אחרים לפי האזור. כך למשל, המספר 224 הכיל את האות à בקידוד של מערב אירופה ואת האות א בקידוד העברי. דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. ב־1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.

          תחילה (כלומר עד לגרסה 2.0) התבסס יוניקוד על קידוד של 16 סיביות, היכול להכיל 65,536 תווים. לאחר שתוקנו תווים רבים לצורכי תאימות (כגון הברות קוריאניות), היה ברור כי אין זה מספר מספיק לכל הצרכים העולמיים, וגרסה 2.0 של יוניקוד הורחבה להכיל 1,112,064 תווים באמצעות מנגנון UTF-16, שבו 2048 קודים מנוצלים כדי לייצג יותר ממיליון תווים. בגרסה 3.1 של יוניקוד הותקנו התווים הראשונים מעבר לתחום ה־65,536 העליונים (המשטח הרב־לשוני הבסיסי), וקידוד יוניקוד ניתן לבצע באחת משלוש צורות: UTF-8,‏ UTF-16 ו־UTF-32. הראשונה משמשת באינטרנט ובלינוקס, השנייה ב־Java ובחלונות, והאחרונה בתור קידוד פנימי (בתוך הזיכרון) של מערכות יוניקס מסוימות.

          https://zvizvi.xyz

          א תגובה 1 תגובה אחרונה תגובה ציטוט 2
          • א
            אהרן @zvizvi נערך לאחרונה על ידי

            @zvizvi אמר באיך מזהים קידוד ואיך ממירים מקידוד לקידוד:

            הראשונה משמשת באינטרנט ובלינוקס

            לפי זה, קידוד יוניקוד בהחלט יכול להחזק לקידוד UTF8?

            תגובה 1 תגובה אחרונה תגובה ציטוט 0
            • א
              אהרן נערך לאחרונה על ידי

              לעצם בעיית השינוים בהשוואה
              זה קורה בגלל שימוש ביוניקודים הכוללים בתו אחד את האות והדגש או אקצנטים אחרים.

              תגובה 1 תגובה אחרונה תגובה ציטוט 0
              • 1 / 1
              • פוסט ראשון
                פוסט אחרון
              בא תתחבר לדף היומי!