תמלול הקלטות לעברית - בדיוק מלא
-
@צדיק-תמים כשכתבתי גוגל הבנת שאני מתכוון לג'מיני?
גם GPT אני מתכוון לAPI הייעודי שלהם לזיהוי טקסט,
ברור לי שGPT עצמו ייתן תוצאה טובה יותר.@dovid @צדיק-תמים לא הבנתי, יש אפשרות לתמלל בגוגל עם המודול של ג'מיני פרו (בAPI)? כי לפי מה שהביא @צדיק-תמים זה מאוד מדויק ומובן
-
@dovid @צדיק-תמים לא הבנתי, יש אפשרות לתמלל בגוגל עם המודול של ג'מיני פרו (בAPI)? כי לפי מה שהביא @צדיק-תמים זה מאוד מדויק ומובן
-
@ששא ודאי שאפשר
ופרומפט מתאים ישפר את התוצאה עוד יותר
יש מגבלות קצב כל עוד החשבון שלך לא הוציא X כסף (תגגל gemini rate limits)@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:
ופרומפט מתאים
דהיינו?
לא הוציא X כסף
לא הבנתי
תגגל gemini rate limits
מגבלות די נמוכות - 1,500 ליום זה ממש לא הרבה...
-
@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:
ופרומפט מתאים
דהיינו?
לא הוציא X כסף
לא הבנתי
תגגל gemini rate limits
מגבלות די נמוכות - 1,500 ליום זה ממש לא הרבה...
-
@ששא
פרומפט הכוונה לבקש במפורט את סגנון הפלט הרצוי, רקע על הדובר, מילים רלוונטיות, כל הדברים שמשפרים תפוקה של מודל שפה כמו גמיני

לא יודע מאיפה המספר 1500@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:
לא יודע מאיפה המספר 1500
1.זה לא קשור לדף הזה?
2.ממש לא הבנתי מה אומר המלל שם ומה פירושם
ואשמח גם אם אחרי ההסבר תוכל גם להגיד לי אם אתה יודע מה באמת המגבלה -
@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:
לא יודע מאיפה המספר 1500
1.זה לא קשור לדף הזה?
2.ממש לא הבנתי מה אומר המלל שם ומה פירושם
ואשמח גם אם אחרי ההסבר תוכל גם להגיד לי אם אתה יודע מה באמת המגבלה -
יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.
-
יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.
@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:
יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.
אני רואה שהזכירו את האתר שלי לעיל
כמה הערות מנסיוני כאחד שהשקיע הרבה בירור ועבודה של חודשים בנושא:
-
בשונה מהמקובל - למודלים כמו וויספר ודומיהם יש הזיות לא פחות ממודלים מבוססי LLM
באופן אישי נתקלתי בהזיות האלו בשימוש די בסיסי אפילו עבור תמלול תוכן באנגלית
הנה לדוגמה כתבה בנושא שנתקלתי בה בעבר -
LLMs אכן הוזים לפעמים כאשר מדובר על תוכן שפחות נמצא בנתוני האימון, כמו יידיש או הברה אשכנזית כבדה
אבל בעברית סטנדרטית עם איכות הקלטה סבירה, רמת הדיוק שלהם קרובה מאוד ל-100%, ברמה שיתכן שניתן לוותר אפילו על הגייה אנושית (אם כי לא הייתי סומך על זה בעיניים עצומות) -
המחיר הוא אכן שיקול משמעותי ולשימוש יומיומי בסיסי בהחלט אין טעם בשימוש ב-LLMs, אבל עבור כל מה שמעבר (עריכת ספרים, תמלול סרטונים ליוטיוב, תמלול פודקאסטים), אין ספק ששימוש ב-LLMs (או באתר שלי...) יהיה הרבה יותר יעיל ויחסוך הרבה עבודה, ביחוד עבור מי שגם ככה משקיע מאות ואלפי שקלים עבור תמלול אנושי
-
הכוכבית היחידה הוא תמלול כתוביות לפי זמנים - שבו LLMs בהחלט עשויים להזות ולהמציא זמנים או לא לדייק בהם
גם יצירת תוכן בפורמט קבוע כמו SRT עדיין בעייתית וגורמת להרבה תקלות
@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:
@צדיק-תמים כשכתבתי גוגל הבנת שאני מתכוון לג'מיני?
גם GPT אני מתכוון לAPI הייעודי שלהם לזיהוי טקסט,
ברור לי שGPT עצמו ייתן תוצאה טובה יותר.- מידע בונוס: האיכות של GPT עבור תמלול לא מרשימה בכלל ולא שווה הרבה. נראה ש-OpenAI די הזניחו תכונות מולטי-מודאליות מסויימות בשונה מגוגל
למעשה, נראה לי שהמודל האחרון שתומך ב-API של TTS הוא GPT 4o
-
-
@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:
יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.
אני רואה שהזכירו את האתר שלי לעיל
כמה הערות מנסיוני כאחד שהשקיע הרבה בירור ועבודה של חודשים בנושא:
-
בשונה מהמקובל - למודלים כמו וויספר ודומיהם יש הזיות לא פחות ממודלים מבוססי LLM
באופן אישי נתקלתי בהזיות האלו בשימוש די בסיסי אפילו עבור תמלול תוכן באנגלית
הנה לדוגמה כתבה בנושא שנתקלתי בה בעבר -
LLMs אכן הוזים לפעמים כאשר מדובר על תוכן שפחות נמצא בנתוני האימון, כמו יידיש או הברה אשכנזית כבדה
אבל בעברית סטנדרטית עם איכות הקלטה סבירה, רמת הדיוק שלהם קרובה מאוד ל-100%, ברמה שיתכן שניתן לוותר אפילו על הגייה אנושית (אם כי לא הייתי סומך על זה בעיניים עצומות) -
המחיר הוא אכן שיקול משמעותי ולשימוש יומיומי בסיסי בהחלט אין טעם בשימוש ב-LLMs, אבל עבור כל מה שמעבר (עריכת ספרים, תמלול סרטונים ליוטיוב, תמלול פודקאסטים), אין ספק ששימוש ב-LLMs (או באתר שלי...) יהיה הרבה יותר יעיל ויחסוך הרבה עבודה, ביחוד עבור מי שגם ככה משקיע מאות ואלפי שקלים עבור תמלול אנושי
-
הכוכבית היחידה הוא תמלול כתוביות לפי זמנים - שבו LLMs בהחלט עשויים להזות ולהמציא זמנים או לא לדייק בהם
גם יצירת תוכן בפורמט קבוע כמו SRT עדיין בעייתית וגורמת להרבה תקלות
@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:
@צדיק-תמים כשכתבתי גוגל הבנת שאני מתכוון לג'מיני?
גם GPT אני מתכוון לAPI הייעודי שלהם לזיהוי טקסט,
ברור לי שGPT עצמו ייתן תוצאה טובה יותר.- מידע בונוס: האיכות של GPT עבור תמלול לא מרשימה בכלל ולא שווה הרבה. נראה ש-OpenAI די הזניחו תכונות מולטי-מודאליות מסויימות בשונה מגוגל
למעשה, נראה לי שהמודל האחרון שתומך ב-API של TTS הוא GPT 4o
-