תמלול הקלטות לעברית - בדיוק מלא

dovid

@צדיק-תמים כשכתבתי גוגל הבנת שאני מתכוון לג'מיני?
גם GPT אני מתכוון לAPI הייעודי שלהם לזיהוי טקסט,
ברור לי שGPT עצמו ייתן תוצאה טובה יותר.

ששא

@dovid @צדיק-תמים לא הבנתי, יש אפשרות לתמלל בגוגל עם המודול של ג'מיני פרו (בAPI)? כי לפי מה שהביא @צדיק-תמים זה מאוד מדויק ומובן

צדיק תמים

@ששא ודאי שאפשר
ופרומפט מתאים ישפר את התוצאה עוד יותר
יש מגבלות קצב כל עוד החשבון שלך לא הוציא X כסף (תגגל gemini rate limits)

ששא

@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:

ופרומפט מתאים

דהיינו?

לא הוציא X כסף

לא הבנתי

תגגל gemini rate limits

מגבלות די נמוכות - 1,500 ליום זה ממש לא הרבה...

צדיק תמים

@ששא
פרומפט הכוונה לבקש במפורט את סגנון הפלט הרצוי, רקע על הדובר, מילים רלוונטיות, כל הדברים שמשפרים תפוקה של מודל שפה כמו גמיני
49c342f3-58e9-44ca-8485-60babbccee35-CleanShot 2026-02-20 at 01.32.22@2x.png
לא יודע מאיפה המספר 1500

ששא

@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:

לא יודע מאיפה המספר 1500

1.זה לא קשור לדף הזה?
2.ממש לא הבנתי מה אומר המלל שם ומה פירושם
ואשמח גם אם אחרי ההסבר תוכל גם להגיד לי אם אתה יודע מה באמת המגבלה

צדיק תמים

@ששא מה הקשר Code Assist?
אין מגבלה אחת, זה תלוי מודל ותלוי בהיסטוריית התשלומים של החשבון

dovid

יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.

יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.

NH.LOCAL

@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:

יש שתי נקודות שבמקרים מסויימים יכולים להיות סיבות למה לא להשתמש בג'מיני (או כל LLM מולטי), אלא בAPI ייעודי:
א. מחיר - הLLM יותר יקר ופחות ניתן לחיזוי בלי ניסיון בפועל.
ב. טמפרטורה ודטרמניזם - הLLM עלול - תיאורטית לפחות - להפתיע לרעה, או בכלל להפתיע.

יכול להיות שאני טועה בשניהם (כלומר שיש דרך להעריך בקלות את המחיר, ושכיום או תמיד היה ניתן להדק את הודאות של הפלט ל99.99 אחוזים), אני התמודדתי עם שני הדברים האלה כמה פעמים. גם בתרגום טקסט לטקסט, וגם באילוץ מבנה תשובה ששמה לכאורה לא יכולים להיות הפתעות.

אני רואה שהזכירו את האתר שלי לעיל

כמה הערות מנסיוני כאחד שהשקיע הרבה בירור ועבודה של חודשים בנושא:

בשונה מהמקובל - למודלים כמו וויספר ודומיהם יש הזיות לא פחות ממודלים מבוססי LLM
באופן אישי נתקלתי בהזיות האלו בשימוש די בסיסי אפילו עבור תמלול תוכן באנגלית
הנה לדוגמה כתבה בנושא שנתקלתי בה בעבר
LLMs אכן הוזים לפעמים כאשר מדובר על תוכן שפחות נמצא בנתוני האימון, כמו יידיש או הברה אשכנזית כבדה
אבל בעברית סטנדרטית עם איכות הקלטה סבירה, רמת הדיוק שלהם קרובה מאוד ל-100%, ברמה שיתכן שניתן לוותר אפילו על הגייה אנושית (אם כי לא הייתי סומך על זה בעיניים עצומות)
המחיר הוא אכן שיקול משמעותי ולשימוש יומיומי בסיסי בהחלט אין טעם בשימוש ב-LLMs, אבל עבור כל מה שמעבר (עריכת ספרים, תמלול סרטונים ליוטיוב, תמלול פודקאסטים), אין ספק ששימוש ב-LLMs (או באתר שלי...) יהיה הרבה יותר יעיל ויחסוך הרבה עבודה, ביחוד עבור מי שגם ככה משקיע מאות ואלפי שקלים עבור תמלול אנושי
הכוכבית היחידה הוא תמלול כתוביות לפי זמנים - שבו LLMs בהחלט עשויים להזות ולהמציא זמנים או לא לדייק בהם
גם יצירת תוכן בפורמט קבוע כמו SRT עדיין בעייתית וגורמת להרבה תקלות

@dovid כתב בתמלול הקלטות לעברית - בדיוק מלא:

@צדיק-תמים כשכתבתי גוגל הבנת שאני מתכוון לג'מיני?
גם GPT אני מתכוון לAPI הייעודי שלהם לזיהוי טקסט,
ברור לי שGPT עצמו ייתן תוצאה טובה יותר.

מידע בונוס: האיכות של GPT עבור תמלול לא מרשימה בכלל ולא שווה הרבה. נראה ש-OpenAI די הזניחו תכונות מולטי-מודאליות מסויימות בשונה מגוגל
למעשה, נראה לי שהמודל האחרון שתומך ב-API של TTS הוא GPT 4o

ששא

@NH.LOCAL כמי שעסקת בתחום, על מה את ממליץ הכי טוב - בapi או בai?
גוגל? ויספר? openAi (דיבור לטקסט)? gpt? מייקרוסופט? ג'מיני?

shraga

מישהו ניסה את https://www.ivrit.ai/ ביחס למודלים האחרים שהוזכרו כאן? האם יש להם ערך מוסף משמעותי אם בכלל?

צדיק תמים

הוא מבוסס על whisper, איכותית הוא פחות טוב מג'מיני אבל ייתכן שביחס עלות תועלת הוא עדיף

nigun

@צדיק-תמים כתב בתמלול הקלטות לעברית - בדיוק מלא:

הוא מבוסס על whisper, איכותית הוא פחות טוב מג'מיני אבל ייתכן שביחס עלות תועלת הוא עדיף

אולי אפשר להשתמש בו כדי לקבל חתימות זמן מדוייקות ואז לשלוח לג'מיני לתיקון (לג'מיני אין חתימות זמן מדוייקות)

חגלילית

פוסט זה נמחק!

חגלילית

פוסט זה נמחק!

תחומים - פורום חרדי מקצועי

תמלול הקלטות לעברית - בדיוק מלא