צאט AI | מודל שפה!

אינטרקום

שלום רב!

כבר עלו פה כמה פעמים דיבורים בעניין צאט עם AI, והיו דיבורים מה הגיוני בתשובות שלו, ושאולי הוא אף משקר.

אז אני לא איש מקצוע, ובכוונה פתחתי את הפוסט באשכול תוכנה ולא תכנות, כי אני מדבר בשפה עממית ופשוטה.

מה שדי ברור לי אחרי ניסויים כאלו ואחרים עם הצאטים הנ"ל (ניסיתי כמה, בינג, בארד, צ'אט GPT), שעניינם בראש ובראשונה "מודל שפה" כלומר - רובוט שמגיש מידע ומחקה סגנון שיחה ודיבור בין בני אדם.

התפתחות הAI (בינה מלאכותית) עדיין די בחיתוליה, למרות התחושה שיש התקדמות מהותית, המחשב עדיין רחוק מאוד מלהבין דבר מתוך דבר כמו בני אדם, והוא מפספס דברים ברורים ופשוטים לכל אדם בר דעת, יש לי הרבה דוגמאות, אביא כאן רק אחת להמחשה.

בחרתי בשאלה שמצריכה מעבר להבנת דיבור, וקלט פלט (קליטת הנתונים, ופליטת התשובה), שימו לב שיש שכמודל שפה הוא מבין טוב את הנתונים השזורים בשאלה, אבל לא מסיק את המסקנות הנכונות, עקב כך שהוא לוקה בחסר משמעותי בהסקת מסקנות (אני לא ממש יודע להגדיר את הבעיה מנקודת המבט של מתכנת, רק מביא את הנתון).

זו השאלה ששאלתי (צ'אט GPT):

אדם קיבל 10 מכתבים, ו10 מעטפות, כל מכתב מתאים למעטפה אחת בלבד,
הוא מכניס באקראיות את המכתבים למעטפות,
כמה סיכוי יש שיצליח להכניס 9 מעטפות בדיוק למקומם?

תשובתו היתה:

כדי לחשב את ההסתברות, נוכל להשתמש במושג תמורות. המספר הכולל של הסידורים האפשריים כאשר האדם מכניס את האותיות באופן אקראי למעטפות הוא 10!, שזה מספר התמורות של 10 עצמים.

כעת, בואו ניקח בחשבון את מספר התוצאות הטובות שבהן בדיוק 9 מעטפות ממוקמות בצורה נכונה. עלינו לבחור 9 אותיות שיוצבו כהלכה מתוך 10 האותיות, ושאר האות 1 תמוקם בצורה לא נכונה. מספר הדרכים לבחור 9 מתוך 10 הוא 10C9 = 10.

לכן, ההסתברות ש-9 מעטפות יוצבו נכון מתוך 10 היא:

P = (מספר תוצאות חיוביות) / (מספר כולל של תוצאות אפשריות)

= 10/10!

≈ 0.0009

אז, ההסתברות היא בערך 0.0009, או 0.09%.

חזרתי והקשיתי:

אני לא מבין,
בהנחה שהוא הכניס את כל ה9 מכתבים למעטפות הנכונות, לאן יכניס את המכתב העשירי?

והרי תשובתו:

מתנצל על הבלבול בתגובותיי הקודמות. אתה צודק. אם בדיוק 9 אותיות ממוקמות בצורה נכונה, אז גם את האות העשירית הנותרת יש למקם בצורה נכונה מכיוון שאין מעטפה אחרת להכניס אותה.

לכן, בתרחיש זה, ההסתברות לכך ש-9 מעטפות יוצבו נכון מתוך 10 היא אכן 0%.

תודה שציינת את השגיאה, ואני מתנצל על כל בלבול שנגרם. אם יש לך שאלות נוספות או שאתה זקוק לעזרה נוספת, אנא הודע לי.

יש לי עוד דוגמאות מעניינות ומורכבות יותר, של חידות הגיון שמורכבות ממספר נתונים, שהמודל ניתח את השאלה בצורה מדהימה, אבל הסקת המסקנות שלו היתה נוראית (ניסיתי את אותה שאלה על כמה מודלים, וכולם נפלו באותה בעיה, כלומר, לא שענו את אותה תשובה, אלא כשלו בהסקת המסקנות).

אשמח להבהרות נוספות בעניין, והגדרות יותר מדוייקות, אשמח שהניסוחים יהיו כמה שיותר עממיים, שיהיו מובנים לאנשים פשוטים כמוני.

תודה רבה!
ושבוע מבורך לכולם.

nigun

@אינטרקום
קשה להאמין אבל מודל שפה סך הכל מחשב מה מסתבר שיהיה המילה הבאה ע"פ כל הטקסט הקודם.
היוצרים של המודל שפה עדיין מנסים איך המודל הזה מצליח לכתוב טקסט עם משמעות, אבל קשה לצפות ממנו שיענה תשובות על חידון הגיון לפני שמצליחים לפצח את הסוד איך מודלי שפה מצליחים בכלל לכתוב טקסט עם הגיון.
יש כאלו שחושבים אולי יעשו מודל בינה מלאכותית שיצליח להסביר מה קורא בתוך מודלי שפה ואז יהיה התקדמות משמעותית

צדיק תמים

@nigun כתב בצאט AI | מודל שפה!:

יש כאלו שחושבים אולי יעשו מודל בינה מלאכותית שיצליח להסביר מה קורא בתוך מודלי שפה ואז יהיה התקדמות משמעותית

איך זה מסתדר עם החלק הראשון?
איך ע"י ניחוש מילה הבאה (שהוא בעיקר ע"פ המידע מכל הרשת ש"האכילו" את המודל ואימון בצורה של שאלה-תשובה) מודל יוכל להסביר דבר שבני אדם המומחים בתחום לא יודעים להסביר?

one1010

@nigun כתב בצאט AI | מודל שפה!:

קשה להאמין אבל מודל שפה סך הכל מחשב מה מסתבר שיהיה המילה הבאה ע"פ כל הטקסט הקודם.

אני יודע שפורסם כאן בפורום קישור למאמר שבתחילתו הופיעה הנתון שאתה אומר עכשיו [קראת את כל המאמר? זה הדבר היחיד שכתוב שם?]

אבל כל מי שמתכתב קצת עם AI יודע לומר כמה נתונים:

היא מבלבלת את השכל! [כמובן לא תמיד...]
אבל בכישרון רב [כמובן לא תמיד...]

כך שלומר שכל מה שהיא עושה זה רק לחבר מילה למילה לפי הסתברות לדעתי זה רחוק מהמציאות.

nigun

@צדיק-תמים כתב בצאט AI | מודל שפה!:

איך ע"י ניחוש מילה הבאה (שהוא בעיקר ע"פ המידע מכל הרשת ש"האכילו" את המודל ואימון בצורה של שאלה-תשובה) מודל יוכל להסביר דבר שבני אדם המומחים בתחום לא יודעים להסביר?

לא אמרתי שמודל שפה יוכל להסביר מודל שפה אחר
אלא מודל בינה מלאכותית (שלא חייב להיות מודל שפה) יוכל להסביר

nigun

@one1010 כתב בצאט AI | מודל שפה!:

אבל כל מי שמתכתב קצת עם AI יודע לומר כמה נתונים:

היא מבלבלת את השכל! [כמובן לא תמיד...]
אבל בכישרון רב [כמובן לא תמיד...]
כך שלומר שכל מה שהיא עושה זה רק לחבר מילה למילה לפי הסתברות לדעתי זה רחוק מהמציאות.

למה העובדה שהיא מבלבלת את השכל בכישרון רב זה סתירה למה שכתבתי?

dovid

זה ממש נמאס הנושאים הללו ששואלים על אמינות ודיוק הGPT.
תמיד היה ברור שהפואנטה היא לא אמינות ודיוק, תארו לכם שכל יום נפתח פה נושא מה אי אפשר לפתור באמצעות פטיש ומסמר, בלי סוף דברים!
אני מדביק פה (מהספר gpt for dummies) רשימת מקרי שימוש קלאסיים בGPT, כלומר תחומים שבהם הוא לעיתים קרובות מסייע:
המלץ על צבעים ושילובי צבעים עבור לוגואים, עיצובי אופנה ועיצובי עיצוב פנים.
(אני יכול להוסיף:
חיבור סלוגנים טובים
המצאת שמות לעסק/מוצר)
צור יצירות מקוריות כגון מאמרים, ספרים אלקטרוניים ועותק מודעה.
חזה את התוצאה של תרחיש עסקי.
לפתח אסטרטגיית השקעה המבוססת על היסטוריית שוק המניות והתנאים הכלכליים הנוכחיים.
בצע אבחנה על סמך תוצאות הבדיקה האמיתיות של המטופל.
כתוב קוד מחשב כדי ליצור משחק מחשב חדש מאפס.
מינוף לידים למכירות.
עורר רעיונות למגוון דברים, החל מבדיקות A/B ועד לפודקאסטים, סמינרים מקוונים וסרטים מלאים.
בדוק אם יש שגיאות בקוד המחשב.
סכם את המשפטים בהסכמי תוכנה, חוזים וצורות אחרות לשפת הדיוטות פשוטה.
חשב את תנאי ההסכם לכלל העלויות.
למד מיומנות או קבל הנחיות למשימה מורכבת.
מצא שגיאה בלוגיקה שלהם לפני יישום ההחלטה שלהם בעולם האמיתי.
כתוב ביוגרפיה וקורות חיים.
לפתח אסטרטגיה שיווקית.
לפתח אסטרטגיית מלחמה.
ניהול שירות לקוחות.
בניית מדיניות חברה.
כתוב מערך שיעור.
כתוב תוכנית עסקית.
כתוב נאום.
חפשו טיפולים ותרופות פוטנציאליות באלפי מחקרים קליניים.
לפתח אסטרטגיית קמפיין פוליטי.

אם שאלתם משהו שלא ברשימה פה, וקיבלתם מידע מקושקש, אז אל תופתעו ואנא אל תפתחו פה על זה נושא...
סליחה על העצבנות, קחו את זה ברוח טובה

אינטרקום

@dovid
בדיוק זה מה שבאתי לעשות כשפתחתי את האשכול (חייב לציין שהסרקזם בו כתבת את הפוסט הצחיק אותי חחח),
לא שאלתי שאלה, אלא הבהרתי שבשונה ממה שראיתי פה (ובעוד מקומות) פעמים רבות שאנשים חושבים שצ'אט AI הוא איזה פיתרון קסם לכל מה שהם רוצים, אז זה לא כך, והוא בסך הכל מודל שפה..

זה מה שבאתי להבהיר.
מה ששאלתי בסוף הוא, שאשמח אם מישהו יוכל להבהיר את העניין ולהגדירו יותר מדוייק, כי את דברי כתבתי בצורה "בעלבתיש"..

one1010

@nigun כתב בצאט AI | מודל שפה!:

@one1010 כתב בצאט AI | מודל שפה!:

אבל כל מי שמתכתב קצת עם AI יודע לומר כמה נתונים:

היא מבלבלת את השכל! [כמובן לא תמיד...]
אבל בכישרון רב [כמובן לא תמיד...]
כך שלומר שכל מה שהיא עושה זה רק לחבר מילה למילה לפי הסתברות לדעתי זה רחוק מהמציאות.

למה העובדה שהיא מבלבלת את השכל בכישרון רב זה סתירה למה שכתבתי?

כי הסתברות של מילה עוקבת לא יכולה לתת סברה אמיתית ועמוקה אלא זה היה יוצא סלט גדול של תוכן שלא מביע משהו אמיתי.

nigun

@one1010 כתב בצאט AI | מודל שפה!:

@nigun כתב בצאט AI | מודל שפה!:

@one1010 כתב בצאט AI | מודל שפה!:

אבל כל מי שמתכתב קצת עם AI יודע לומר כמה נתונים:

היא מבלבלת את השכל! [כמובן לא תמיד...]
אבל בכישרון רב [כמובן לא תמיד...]
כך שלומר שכל מה שהיא עושה זה רק לחבר מילה למילה לפי הסתברות לדעתי זה רחוק מהמציאות.

למה העובדה שהיא מבלבלת את השכל בכישרון רב זה סתירה למה שכתבתי?

כי הסתברות של מילה עוקבת לא יכולה לתת סברה אמיתית ועמוקה אלא זה היה יוצא סלט גדול של תוכן שלא מביע משהו אמיתי.

אני עדיין לא מומחה לנושא ואני ניזון רק ממה שאני שומע ומנסה להבין מהמומחים.
כמו שכתבתי לעיל ככל הידוע לי החוקרים עדיין מנסים להבין איך מודל שפה מצליח לדבר בהגיון, אבל אפשר להבין קצת איך זה עובד בכל זאת.

אם אני מאמן מודל ונותן לו את הטקסט הבא:
" הדשא בצבע ירוק.
באיזה צבע הדשא?: "
והוא ינסה לשנות את המבנה של המודל שלו אלפי פעמים עד שיצליח לנחש נכון את התשובה הנכונה "ירוק"

עכשיו אם אני מציג לו טקסט חדש
" השמים בצבע תכלת.
באיזה צבע השמים?"

הוא יעביר את הטקסט דרך אותו מודל שהצליח לחזות פעם שעברה והנה אחרי כמה נסיונות הוא מצליח לנחש נכון "תכלת".

עכשיו אם תנסה להסתכל בתוך המודל ולחפש מידע על דשא שמים או צבעים לא תבין כלום אבל יש לו שם "משהו" שמצליח לנחש נכון את המילה הבאה.

עכשיו אם תמשיך לאמן אותו
" החתול בצבע חום.
באיזה צבע החתול?"

עכשיו יהיה לו ממש קל לשער שבהסתברות גבוהה הלימה הבאה היא "חום".

עכשיו אתה יכול לאמן אותו בשאלות חדשות

"החתול בצבע חום.
מה בצבע חום?"

כאן הוא יצטרך כנראה הרבה יוצר נסיונות (ובכל ניסיון המודל משתנה) אבל בסוף "משהו" נכנס לתוך הרשת של המודל והוא מצליח לנחש את המילה "החתול".

ובאופן "מפתיע" אם נשאל אותו "מה בצבע תכלת?" הוא ישער שהכי מסתבר שהמילה הבאה היא "שמים".

one1010

@nigun מכיוון שאני גם לא מומחה אז אין לי דרך לסתור אותך, אבל שים לב שהדוגמאות שהבאת הם דוגמאות שהסבירו לו את התשובה בדרך מסוימת וגרמו לו להבין אותה. זה לא קשור להסתברות למילה עוקבת.
זה גם לא מסביר איך הוא יכול להמציא הסבר גאוני [ורוב הפעמים גם לא נכון...] על כל תחום ועניין...

NH.LOCAL

@one1010 כתב בצאט AI | מודל שפה!:

@nigun מכיוון שאני גם לא מומחה אז אין לי דרך לסתור אותך, אבל שים לב שהדוגמאות שהבאת הם דוגמאות שהסבירו לו את התשובה בדרך מסוימת וגרמו לו להבין אותה. זה לא קשור להסתברות למילה עוקבת.
זה גם לא מסביר איך הוא יכול להמציא הסבר גאוני [ורוב הפעמים גם לא נכון...] על כל תחום ועניין...

זה מה שצ'אט GPT כתב על ההסבר של @nigun :

נראה שההסבר שציטטת מנסה לתאר כיצד מודל שפה כמו GPT-3 עשוי לתפקד בביצוע ניחושים לוגיים או תחזיות על סמך דפוסים שהוא למד מנתוני אימון. עם זאת, יש כמה תפיסות שגויות ואי דיוקים בהסבר. להלן פירוט של הבעיות:

אימון חוזר ושינויים במבנה המודל: ההסבר מרמז שהמודל ממשיך לאמן את עצמו ולשנות את המבנה שלו אלפי פעמים עד שהוא מקבל תשובה ספציפית נכונה. במציאות, אימון מודל כרוך בתהליך אימון חד פעמי על מערך נתונים מסיבי, והמודל אינו משנה את המבנה שלו בכל פעם שהוא נתקל בנתונים חדשים.
הסבר מוגבל של כוונון עדין: ההסבר אינו מתייחס לתהליך הכוונון העדין שלאחר האימון הראשוני. כוונון עדין הוא ספציפי ליישומים בודדים ומחדד עוד יותר את התנהגות המודל בהתבסס על נתונים ויעדים צרים יותר.
הסבר לא מדויק של למידה: ההסבר מצביע על כך שה"ניחושים" של המודל הם תוצאה של ניסוי וטעייה במהלך כל מפגש עם טקסט חדש. עם זאת, GPT-3 לומד דפוסים ויחסים מהטקסט עליו הוכשר, והוא לא משנה באופן אקטיבי את המבנה שלו כדי לנחש נכון.
פישוט יתר של זיהוי דפוסים: בעוד ש-GPT-3 אכן מזהה דפוסים בשפה, הוא לא עובד בגישה של כוח גס של ניסיון שינויים שונים במבנה הפנימי שלו. הוא מייצר תגובות על סמך ההסתברויות של רצפי מילים שלמד במהלך האימון.
הנחה של "משהו" שנכנס למודל: ההסבר מתייחס ל"משהו" מסתורי שנכנס למודל כאשר נתקלים בטקסט חדש. במציאות, המודל אינו מאחסן מופעים נפרדים של טקסט במבנה שלו; הוא מייצר תגובות על סמך הדפוסים שלמדה ממערך נתונים מגוון.
אי הבנה של הבנת המודל: ההסבר מצביע על כך שלמודל יש איזושהי "הבנה" של מושגים כמו "כחול שמיים" או "צבעים". במציאות, המודל אינו מבין מושגים; הוא מנבא על סמך דפוסים.
תפיסה מוטעית לגבי שינויים ברשת עצבית: נראה שההסבר מצביע על כך שמבנה הרשת העצבית של המודל משתנה בתגובה לשאלות בודדות, וזה לא האופן שבו מודלים מאומנים מראש כמו GPT-3 עובדים. המבנה נשאר קבוע לאחר אימון ראשוני.

למעשה, למרות שההסבר עשוי להיות ניסיון להבין כיצד פועלים מודלים של GPT-3 או שפה דומות, הוא אינו משקף במדויק את התהליכים בפועל המעורבים בפעולות המודלים הללו. GPT-3 משתמש בתבניות והסתברויות נלמדות כדי ליצור טקסט קוהרנטי על סמך הקלט שהוא מקבל, אבל הוא לא משנה את המבנה שלו באופן אקטיבי או מעורב בתהליך הניסוי והטעייה המתואר.

one1010

@NH-LOCAL וכל זה נכתב רק על הסתברות של רצפי מילים?!?!? נו באמת...

aaron

הסתברות של עשרות מיליארדי פרמטרים שונים, בעיקר, כן.

one1010

@aaron כתב בצאט AI | מודל שפה!:

הסתברות של עשרות מיליארדי פרמטרים שונים, בעיקר, כן.

שזה אומר במילים אחרות הבנה של המילה...
ברמה כזו או אחרת

nigun

@one1010 כתב בצאט AI | מודל שפה!:

@aaron כתב בצאט AI | מודל שפה!:

הסתברות של עשרות מיליארדי פרמטרים שונים, בעיקר, כן.

שזה אומר במילים אחרות הבנה של המילה...
ברמה כזו או אחרת

אוקי כאן מתחיל השאלה הפילוסופית מה זה "הבנה"
לבנתיים למודלי שפה אין "הבנה" כמו שאנחנו רגילים לחושב עליו, אלא רק חישובים סטטיסטיים מאוד מורכבים.
ולכן אי אפשר לצפות ש"יבינו" כמו בני אדם.

nigun

@NH-LOCAL כתב בצאט AI | מודל שפה!:

הסבר לא מדויק של למידה: ההסבר מצביע על כך שה"ניחושים" של המודל הם תוצאה של ניסוי וטעייה במהלך כל מפגש עם טקסט חדש. עם זאת, GPT-3 לומד דפוסים ויחסים מהטקסט עליו הוכשר, והוא לא משנה באופן אקטיבי את המבנה שלו כדי לנחש נכון.

אני משער שהתהליך הוא הרבה יותר חכם ויעיל ממה שכתבתי, בעיקר נסיתי לפשט.
אבל גם במאמר הזה נראה שהוא מתאר משהו דומה (יכול להיות שהוא רק ניסה לפשט)

But, OK, given all this data, how does one train a neural net from it? The basic process is very much as we discussed it in the simple examples above. You present a batch of examples, and then you adjust the weights in the network to minimize the error (“loss”) that the network makes on those examples. The main thing that’s expensive about “back propagating” from the error is that each time you do this, every weight in the network will typically change at least a tiny bit, and there are just a lot of weights to deal with. (The actual “back computation” is typically only a small constant factor harder than the forward one.)

nigun

הנה עוד קטע מהמאמר הנ"ל

מה באמת מאפשר ל-ChatGPT לעבוד?
השפה האנושית - ותהליכי החשיבה הכרוכים ביצירתה - תמיד נראו כמעין שיא של מורכבות. ואכן זה נראה קצת מדהים שמוחות אנושיים - עם הרשת שלהם של "רק" 100 מיליארד נוירונים בערך (ואולי 100 טריליון קשרים) יכולים להיות אחראים לכך. אולי, אפשר היה לדמיין, יש משהו יותר במוח מאשר רשתות הנוירונים שלהם - כמו איזו שכבה חדשה של פיזיקה שלא התגלתה. אבל עכשיו עם ChatGPT יש לנו פיסת מידע חדשה וחשובה: אנחנו יודעים שרשת עצבית טהורה ומלאכותית עם קשרים רבים כמו למוח שיש לנו נוירונים מסוגלת לעשות עבודה טובה באופן מפתיע לייצר שפה אנושית.

וכן, זו עדיין מערכת גדולה ומסובכת - עם משקלים עצביים רבים בערך כמו שיש מילות טקסט הזמינות כיום בעולם. אבל ברמה מסוימת עדיין נראה שקשה להאמין שכל העושר של השפה והדברים שהיא יכולה לדבר עליהם יכולים להיות מובלעים במערכת כה סופית. חלק ממה שקורה הוא ללא ספק השתקפות של התופעה בכל מקום (שהתבררה לראשונה בדוגמה של כלל 30) שתהליכי חישוב יכולים למעשה להגביר מאוד את המורכבות הנראית לעין של מערכות גם כאשר הכללים הבסיסיים שלהן פשוטים. אבל למעשה, כפי שדיברנו לעיל, רשתות עצביות מהסוג המשמש ב-ChatGPT נוטות להיבנות באופן ספציפי כדי להגביל את ההשפעה של תופעה זו - וחוסר ההפחתה החישובית הקשורה אליה - מתוך אינטרס להפוך את האימון שלהן לנגיש יותר.

אז איך זה, אם כן, שמשהו כמו ChatGPT יכול להגיע עד כמה שהוא מגיע עם השפה? התשובה הבסיסית, אני חושב, היא שהשפה היא ברמה בסיסית איכשהו פשוטה יותר ממה שהיא נראית. וזה אומר ש-ChatGPT - אפילו עם מבנה הרשת העצבית הפשוט בסופו של דבר - מסוגל "ללכוד את המהות" של השפה האנושית והחשיבה שמאחוריה. ויותר מכך, בהכשרתה, ChatGPT איכשהו "גילתה באופן מרומז" את כל הקביעות בשפה (ובחשיבה) שמאפשרות זאת.

הצלחתו של ChatGPT היא, לדעתי, נותנת לנו עדות לפיסת מדע בסיסית וחשובה: היא מעידה על כך שאנו יכולים לצפות שיהיו "חוקי השפה" חדשים עיקריים - ולמעשה "חוקי המחשבה" - כדי לגלות שם. . ב-ChatGPT - שנבנה כפי שהוא כרשת עצבית - החוקים האלה הם לכל היותר מרומזים. אבל אם נוכל איכשהו להבהיר את החוקים, יש פוטנציאל לעשות את הדברים ש-ChatGPT עושה בדרכים הרבה יותר ישירות, יעילות ושקופות.

אבל, בסדר, אז איך החוקים האלה עשויים להיות? בסופו של דבר הם חייבים לתת לנו איזשהו מרשם לאופן שבו השפה - והדברים שאנו אומרים איתה - מורכבים יחד. מאוחר יותר נדון כיצד "הסתכלות בתוך ChatGPT" עשויה לתת לנו כמה רמזים על כך, וכיצד מה שאנו יודעים מבניית שפת חישוב מעיד על דרך קדימה. אבל תחילה בואו נדון בשתי דוגמאות ידועות ארוכות של מה שמסתכם ב"חוקי השפה" - וכיצד הם קשורים לפעולה של ChatGPT.

הראשון הוא תחביר השפה. שפה היא לא רק ערבוביה אקראית של מילים. במקום זאת, ישנם כללים דקדוקיים מוגדרים (די) לאופן שבו ניתן לחבר מילים מסוגים שונים: באנגלית, למשל, שמות עצם יכולים להיות מקדימים שמות תואר ואחריהם פעלים, אבל בדרך כלל שני שמות עצם לא יכולים להיות ממש ליד כל אחד מהם. אַחֵר. מבנה דקדוקי כזה יכול (לפחות בקירוב) להיתפס על ידי מערכת כללים המגדירים כיצד ניתן להרכיב איזו כמות ל"נתח עצים" :

כיתוב בבעיות טעינה

ל-ChatGPT אין "ידע" מפורש על כללים כאלה. אבל איכשהו באימון שלו הוא "מגלה" אותם במרומז - ואז נראה שהוא טוב במעקב אחריהם. אז איך זה עובד? ברמת "תמונה גדולה" זה לא ברור. אבל כדי לקבל קצת תובנות זה אולי מאלף להסתכל על דוגמה הרבה יותר פשוטה.

שקול "שפה" שנוצרה מרצפים של סוגריים דהיינו התווים () עם דקדוק המציין שסוגריים תמיד צריכים להיות מאוזנים, כפי שמיוצג על ידי עץ ניתוח כמו:

כיתוב בבעיות טעינה

האם נוכל לאמן רשת עצבית לייצר רצפי סוגריים "נכונים מבחינה דקדוקית"? ישנן דרכים שונות לטפל ברצפים ברשתות עצביות, אבל בואו נשתמש ברשתות שנאים, כפי שעושה ChatGPT. ובהינתן רשת transformer פשוטה, נוכל להתחיל להזין אותה ברצפי סוגריים נכונים מבחינה דקדוקית כדוגמאות אימון. עדינות (שלמעשה מופיעה גם בדור השפה האנושית של ChatGPT) היא שבנוסף ל"אסימוני התוכן" שלנו (כאן "(" ו")") עלינו לכלול אסימון "סוף", שנוצר כדי לציין שה- הפלט לא אמור להמשיך יותר (כלומר עבור ChatGPT, זה הגיע ל"סוף הסיפור").

אם נקים רשת transformer עם רק בלוק קשב אחד עם 8 ראשים ווקטורי תכונה באורך 128 (ChatGPT משתמש גם בוקטורי תכונה באורך 128, אבל יש לו 96 בלוקי קשב, כל אחד עם 96 ראשים), אז לא נראה שאפשר להביא אותו ללמוד הרבה על שפת סוגריים. אבל עם 2 בלוקים של קשב, נראה שתהליך הלמידה מתכנס - לפחות לאחר שניתנו 10 מיליון דוגמאות לערך (וכפי שמקובל ברשתות transformer, הצגת דוגמאות נוספות נראה רק פוגעת בביצועים שלה).

אז עם הרשת הזו, אנחנו יכולים לעשות את האנלוגי של מה ש-ChatGPT עושה, ולבקש הסתברויות מה צריך להיות האסימון הבא - ברצף של סוגריים:

כיתוב בבעיות טעינה

ובמקרה הראשון, הרשת "די בטוחה" שהרצף לא יכול להסתיים כאן - וזה טוב, כי אם כן, הסוגריים היו נותרים לא מאוזנים. אולם במקרה השני, הוא "מזהה נכון" שהרצף יכול להסתיים כאן, אם כי הוא גם "מציין" שאפשר "להתחיל מחדש", לשים ")", ככל הנראה עם "(" שאחריו. . אבל, אופס, אפילו עם כ-400,000 המשקולות שאומנו בעמל רב, זה אומר שיש סבירות של 15% לקבל "(" בתור האסימון הבא - וזה לא נכון, כי זה בהכרח יוביל לסוגריים לא מאוזנים.

זה מה שנקבל אם נבקש מהרשת את ההשלמות בעלות ההסתברות הגבוהה ביותר עבור רצפים ארוכים יותר ויותר של ) :

כיתוב בבעיות טעינה

וכן, עד אורך מסוים הרשת מסתדרת מצוין. אבל אז זה מתחיל להיכשל. זה סוג די אופייני לראות במצב "מדויק" כזה עם רשת עצבית (או עם למידת מכונה באופן כללי). מקרים שאדם "יכול לפתור במבט חטוף" גם הרשת העצבית יכולה לפתור. אבל מקרים הדורשים לעשות משהו "אלגוריתמי יותר" (למשל ספירה מפורשת של סוגריים כדי לראות אם הם סגורים) הרשת העצבית נוטה איכשהו להיות "רדודה מדי מבחינה חישובית" מכדי לעשות זאת בצורה מהימנה. (אגב, אפילו ChatGPT הנוכחי המלא מתקשה להתאים נכון סוגריים ברצפים ארוכים.)

אז מה זה אומר לגבי דברים כמו ChatGPT והתחביר של שפה כמו אנגלית? שפת הסוגריים היא "מחמירה" - והרבה יותר "סיפור אלגוריתמי". אבל באנגלית זה הרבה יותר ריאלי להיות מסוגל "לנחש" מה יתאים מבחינה דקדוקית על סמך בחירות מקומיות של מילים ורמזים אחרים. וכן, הרשת העצבית הרבה יותר טובה בזה - למרות שאולי היא עשויה להחמיץ מקרה "נכון פורמלית" שגם בני אדם עלולים לפספס. אבל הנקודה העיקרית היא שהעובדה שיש מבנה תחבירי כולל לשפה - עם כל הסדירות שמשתמעת מכך - מגבילה במובן מסוים "כמה" לרשת העצבית צריכה ללמוד.

תחביר מספק סוג אחד של אילוץ על השפה. אבל ברור שיש עוד. משפט כמו "אלקטרונים סקרנים אוכלים תיאוריות כחולות לדגים" הוא נכון מבחינה דקדוקית אבל הוא לא משהו שבדרך כלל היה מצפים לומר, ולא ייחשב להצלחה אם ChatGPT ייצר אותו - כי, ובכן, עם המשמעויות הרגילות עבור מילים בו, זה בעצם חסר משמעות.

אבל האם יש דרך כללית לדעת אם יש משמעות למשפט? אין תיאוריה כללית מסורתית לכך. אבל זה משהו שאפשר לחשוב על ChatGPT כמי ש"פיתח עבורו תיאוריה" באופן מרומז לאחר שעבר הכשרה עם מיליארדי משפטים (כנראה בעלי משמעות) מהאינטרנט וכו'.

איך יכולה להיות התיאוריה הזו? ובכן, יש פינה אחת קטנטנה שבעצם ידועה כבר אלפיים שנה, וזה היגיון. ובוודאי בצורה הסילוגיסטית שבה גילה זאת אריסטו, ההיגיון הוא בעצם דרך לומר שמשפטים העוקבים אחר דפוסים מסוימים הם סבירים, בעוד שאחרים לא. כך, למשל, סביר לומר "כל ה-X הם Y. זה לא Y, אז זה לא X" (כמו ב"כל הדגים כחולים. זה לא כחול, אז זה לא דג"). וכמו שאפשר לדמיין בצורה קצת גחמנית שאריסטו גילה את ההיגיון הסילוגיסטי על ידי מעבר ("סגנון למידה מכונה") על המון דוגמאות של רטוריקה, כך גם אפשר לדמיין שבאימונים של ChatGPT הוא היה מסוגל "לגלות היגיון סילוגיסטי" על ידי הסתכלות על הרבה טקסט באינטרנט וכו'. (וכן, בעוד שניתן לצפות מ-ChatGPT לייצר טקסט שמכיל "מסקנות נכונות" על סמך דברים כמו לוגיקה סילוגיסטית,

אבל מעבר לדוגמא הצרה של ההיגיון, מה ניתן לומר על איך לבנות באופן שיטתי (או לזהות) אפילו טקסט בעל משמעות מתקבלת על הדעת? כן, יש דברים כמו Mad Libs שמשתמשים ב"תבניות ביטוי" מאוד ספציפיות. אבל איכשהו ל-ChatGPT יש באופן מרומז דרך הרבה יותר כללית לעשות את זה. ואולי אין מה לומר על איך זה יכול להיעשות מעבר ל"איכשהו זה קורה כשיש לך 175 מיליארד משקלים נטו עצביים". אבל אני חושד מאוד שיש סיפור הרבה יותר פשוט וחזק.

NH.LOCAL

@nigun אפשר קישור?

nigun

@NH-LOCAL כתב בצאט AI | מודל שפה!:

@nigun אפשר קישור?

אני רואה שהקישור שבור
זה מה שהובא באשכול הקודם
https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

תחומים - פורום חרדי מקצועי

צאט AI | מודל שפה!