אימון מודל GPT
-
רציתי להתייעץ לגבי שימוש בGPT כנציג תמיכה למערכת שלי.
יש לי נציגי תמיכה אנושיים שנותנים מענה ללקוחות בטלפון, אבל רציתי לעשות שלוחה מיוחדת שאפשר לשוחח עם נציג תמיכה וירטואלי מבוסס על GPT.אז זה כבר מוכן וברוך השם עובד נהדר, רק אני מתלבט אם הדרך שבחרתי היא חכמה.
במקום לאמן המודל fine tuning, הכנתי מסמך של 3 עמודים, ובו המון הסברים על המערכת, ובכל פעם שמישהו שואל שאלה, אני שולח בAPI התחלה כזו
you are a support agent ונותן לו את כל המסמך הנל, ואומר לו לענות על השאלה של הלקוח לפי ההקדמה הזו.
אז אמנם זה עולה מעט יותר מן הסתם, כי המסמך הזה הוא בערך 2000 טוקנים, אבל זה כסף קטן ונותן מענה טוב.הבעייה היא, אחרי כמה שאלות.
אם המשתמש ממשיך את השיחה ושואל שאלות נוספות, פתאום הנציג הוירטואלי מסכים לדבר על נושאים שלא ממן הענין, למרות שמסמך כתבתי לו שהוא צריך לסרב בעדינות לדבר על כל נושא אחר.ואני חושש שאולי אחרי שיש לו כבר כל כך הרבה מידע (גם המסמך שלי וגם שלבי השיחה הקודמים), זה כבר משכיח ממנו קצת את הכללים שמסרתי לו.
מאידך גיסא, המודל טורבו הזול, לא ניתן לאימון, והמודל davinci הוא הרבה יותר יקר, כך שלכאורה גם אם אחסוך על ידי האימון שלא צריך לשלוח כל פעם את הכל, אבל אפסיד כי המחיר הוא פי עשר.
אשמח לשמוע את חוות דעתכם על הענין
-
@שואף
למה שעשית קורים in-context training, ולדעתי משתמשים בזה יותר ויותר.
למשל הצורה שבה בינג מכניס מידע מהאינטרנט לתוך התשובות שלו.לגבי השאלה שלך, הייתי מנסה להגביל את כמות השלבים בשיחה שאתה מעביר לGPT, וכמובן עוד כיונונים להוראות שלך.
למשל לסרב בעדינות יכול גם להיתפס כ"אל תסרב לחלוטין", במקום ל"תסרב לחלוטין, תנסח בלשון עדינה" -
מצרף מספר מקורות שפגשתי בעבר
https://github.com/hwchase17/langchain
https://github.com/emptycrown/llama-hub
https://github.com/jerryjliu/llama_index