@one1010 כתב בצאט AI | מודל שפה!:
@nigun מכיוון שאני גם לא מומחה אז אין לי דרך לסתור אותך, אבל שים לב שהדוגמאות שהבאת הם דוגמאות שהסבירו לו את התשובה בדרך מסוימת וגרמו לו להבין אותה. זה לא קשור להסתברות למילה עוקבת.
זה גם לא מסביר איך הוא יכול להמציא הסבר גאוני [ורוב הפעמים גם לא נכון...] על כל תחום ועניין...
זה מה שצ'אט GPT כתב על ההסבר של @nigun :
נראה שההסבר שציטטת מנסה לתאר כיצד מודל שפה כמו GPT-3 עשוי לתפקד בביצוע ניחושים לוגיים או תחזיות על סמך דפוסים שהוא למד מנתוני אימון. עם זאת, יש כמה תפיסות שגויות ואי דיוקים בהסבר. להלן פירוט של הבעיות:
-
אימון חוזר ושינויים במבנה המודל: ההסבר מרמז שהמודל ממשיך לאמן את עצמו ולשנות את המבנה שלו אלפי פעמים עד שהוא מקבל תשובה ספציפית נכונה. במציאות, אימון מודל כרוך בתהליך אימון חד פעמי על מערך נתונים מסיבי, והמודל אינו משנה את המבנה שלו בכל פעם שהוא נתקל בנתונים חדשים.
-
הסבר מוגבל של כוונון עדין: ההסבר אינו מתייחס לתהליך הכוונון העדין שלאחר האימון הראשוני. כוונון עדין הוא ספציפי ליישומים בודדים ומחדד עוד יותר את התנהגות המודל בהתבסס על נתונים ויעדים צרים יותר.
-
הסבר לא מדויק של למידה: ההסבר מצביע על כך שה"ניחושים" של המודל הם תוצאה של ניסוי וטעייה במהלך כל מפגש עם טקסט חדש. עם זאת, GPT-3 לומד דפוסים ויחסים מהטקסט עליו הוכשר, והוא לא משנה באופן אקטיבי את המבנה שלו כדי לנחש נכון.
-
פישוט יתר של זיהוי דפוסים: בעוד ש-GPT-3 אכן מזהה דפוסים בשפה, הוא לא עובד בגישה של כוח גס של ניסיון שינויים שונים במבנה הפנימי שלו. הוא מייצר תגובות על סמך ההסתברויות של רצפי מילים שלמד במהלך האימון.
-
הנחה של "משהו" שנכנס למודל: ההסבר מתייחס ל"משהו" מסתורי שנכנס למודל כאשר נתקלים בטקסט חדש. במציאות, המודל אינו מאחסן מופעים נפרדים של טקסט במבנה שלו; הוא מייצר תגובות על סמך הדפוסים שלמדה ממערך נתונים מגוון.
-
אי הבנה של הבנת המודל: ההסבר מצביע על כך שלמודל יש איזושהי "הבנה" של מושגים כמו "כחול שמיים" או "צבעים". במציאות, המודל אינו מבין מושגים; הוא מנבא על סמך דפוסים.
-
תפיסה מוטעית לגבי שינויים ברשת עצבית: נראה שההסבר מצביע על כך שמבנה הרשת העצבית של המודל משתנה בתגובה לשאלות בודדות, וזה לא האופן שבו מודלים מאומנים מראש כמו GPT-3 עובדים. המבנה נשאר קבוע לאחר אימון ראשוני.
למעשה, למרות שההסבר עשוי להיות ניסיון להבין כיצד פועלים מודלים של GPT-3 או שפה דומות, הוא אינו משקף במדויק את התהליכים בפועל המעורבים בפעולות המודלים הללו. GPT-3 משתמש בתבניות והסתברויות נלמדות כדי ליצור טקסט קוהרנטי על סמך הקלט שהוא מקבל, אבל הוא לא משנה את המבנה שלו באופן אקטיבי או מעורב בתהליך הניסוי והטעייה המתואר.