מודלי שפה בקוד פתוח - שימושים בתעשייה

יוסף בן שמעון

יש באזז רציני סביב פיתוחים של מודלי שפה בקוד פתוח.
השאלה שלי היא למה זה נועד בעצם.
אני מבין שמודלי סיווג זה דבר שימושי, בגלל שהפלט מגיע בתבנית צפויה, ואפשר לרתום אותם להחלטות אוטונומיות על ידי קוד שקורא את הפלט שלהם.
אבל למודל שפה אין פלט דטרמינסטי, ואפילו עם רג'קס אי אפשר לקרוא את הפלט, כך שלכאורה לא ניתן להשתמש בו לביצוע אוטונומי.
אמנם ישנם מודלים שתומכים ב function calling, אבל אני תוהה האם זו באמת הדרך היחידה להפיק תועלת מהעולם הענק של ה LLM? אם זה היה באמת כך זו היתה צריכה להיות דרישה התחלתית מכל מודל, שידע להפיק קריאה לפונקציות?

צדיק תמים

@יוסף-בן-שמעון למודלי קוד פתוח יש את כל השימושים של מודל בקוד סגור עם שלל יתרונות נוספים כמו עלויות, לא להיות תלוי בחברה חיצונית, אבטחה, יכולת התאמה לצרכים מיוחדים

@יוסף-בן-שמעון כתב במודלי שפה בקוד פתוח - שימושים בתעשייה:

אבל למודל שפה אין פלט דטרמינסטי, ואפילו עם רג'קס אי אפשר לקרוא את הפלט, כך שלכאורה לא ניתן להשתמש בו לביצוע אוטונומי.

המודלים כבר מספיק חכמים כדי להחזיר פלט במבנה שתבקש
ואגב לLLM יש פלט דטרמיניסטי, הרי בסוף הLLM רק חוזה את הטוקן הבא בכל פעם על סמך כל הטוקנים עד הנקודה הנוכחית, ולכן אותו קלט ואותם פרמטרים (טמפרטורה וכו') ואותו seed (סה"כ מספר) יחזירו תמיד את אותה התשובה בדיוק,
רק שהממשקים מאחורי הקלעים מכניסים מספר seed אקראי כדי שהתוצאה תהיה שונה כל פעם, בAPI של OpenAI לדוגמה יש לך אפשרות לשלוט על הseed

dovid

פוסט זה נמחק!

יוסף בן שמעון

תודה על התשובות
האם יש למישהו דוגמה מעשית לשימוש LLM בקוד פתוח בתעשייה?
הסיבה צריכה להיות טובה, לדוגמה אבטחת מידע, כי עלויות זה בדרך כלל יותר יקר להחזיק חומרה מתאימה מאשר לפנות ל API קנייני

yossiz

אני חושב שאין באמת היום שימושים טובים לדבר כזה, אבל זה מקדם אחרים בעולם האקדמי והעסקי של פיתוח LLMs
זה גם שימושי לחברות שמארחים את ה-LLM וחושפים לך API או ממשק בתשלום, אבל אני מניח שלא לסוג זה של שימוש התכוונת

nigun

@יוסף-בן-שמעון כתב במודלי שפה בקוד פתוח - שימושים בתעשייה:

הסיבה צריכה להיות טובה, לדוגמה אבטחת מידע, כי עלויות זה בדרך כלל יותר יקר להחזיק חומרה מתאימה מאשר לפנות ל API קנייני

יש חברות שמריצים לך את המודל בקוד פתוח המחיר הרבה יותר נמוך מהמודלים הקניניים
למשל Kimi K2 עולה בopenrouter
$0.088/M input tokens
$0.088/M output tokens

יש גם חברות שנותים לך GPU כSaaS ואתה משלם לפי שניה\שעה של שימוש בלי שמידע יוצא החוצה

קומפיונט

אני חושב שהכוח האמיתי מגיע בשילוב עם mcp.

דוגמאות של שרתי mcp, אפשר לתזמן משימות בשעה מוגדרת וכו'.

NH.LOCAL

@יוסף-בן-שמעון כתב במודלי שפה בקוד פתוח - שימושים בתעשייה:

יש באזז רציני סביב פיתוחים של מודלי שפה בקוד פתוח.
השאלה שלי היא למה זה נועד בעצם.
אני מבין שמודלי סיווג זה דבר שימושי, בגלל שהפלט מגיע בתבנית צפויה, ואפשר לרתום אותם להחלטות אוטונומיות על ידי קוד שקורא את הפלט שלהם.
אבל למודל שפה אין פלט דטרמינסטי, ואפילו עם רג'קס אי אפשר לקרוא את הפלט, כך שלכאורה לא ניתן להשתמש בו לביצוע אוטונומי.
אמנם ישנם מודלים שתומכים ב function calling, אבל אני תוהה האם זו באמת הדרך היחידה להפיק תועלת מהעולם הענק של ה LLM? אם זה היה באמת כך זו היתה צריכה להיות דרישה התחלתית מכל מודל, שידע להפיק קריאה לפונקציות?

א. ניתן בהחלט "להכריח" את המודל להנפיק פלט במבנה JSON בהתאם לפורמט המדויק הרצוי, והאמינות של המודלים היא באיזור 100% כיום עבור הנפקת הפלט

ב. יש אינספור משימות של עיבוד טקסט פשוט, שמשמשים בתעשייה. הרבה לפני שימוש בכלים, MCP וקריאת פונקציות.

למשל:

זיהוי ואיסוף מידע בתוך מסמכים, כמו שם, סכום כסף, כתובת, וכו', הצריך בעבר שימוש במודלים ייעודיים שכונו מודלי NER, והדיוק שלהם היה מוגבל. כיום מודלי שפה יכולים לצלוח משימות כאלו בקלות
שילוב המודל עם RAG כדי לאסוף ולחפש מידע רלוונטי מתוך החברה
צ'אטים אוטומטיים עבור תמיכה ושירות לקוחות
כתיבה שיווקית וניסוח מיילים, מודעות וקמפיינים - מהעבודות היותר משמעותיות

העשרה נוספת כאן

תחומים - פורום חרדי מקצועי

מודלי שפה בקוד פתוח - שימושים בתעשייה