STT ונרמול דאטה
-
אני מקבל הקלטה ואני רוצה לשמור את זה כנתונים מסודרים.
לשם הדוגמא אני מקבל הקלטה של תהליך של טיול הקלטה בסגנון
"טיול XXX מתחילים במקום X ממשיכים כ10 דקות עד שמגיעים למיקום Y וממשיכים עוד 30 דקות עד לנקודת היעד"
ואני רוצה לקבל אוביקט כזה{ "title": "טיול XXX", "points": [ { "name": "מקום X", "timeToNext": 10 }, { "name": "מיקום Y", "timeToNext": 30 }, { "name": "נקודת היעד", "timeToNext": null } ] }
-
האם אני צריך להשתמש בSTT ואז עם AI לסדר את הנתונים.
או שיש משהו שמיועד לזה. -
איזה שירות STT הכי טוב בעברית.
-
איזה מודל AI יכול הכי להתאים לזה.
אמור להיות לי משהו כמו 50 הקלטות בחודש, ולא אכפת לי לשלם על זה.
אני רוצה להטמיע את זה בפרויקט node שירוץ על שרת של firebase (שזה לא נותן לי שרת ממש, - במובן שיש לי מחשב - אלא רק מריץ את הפרויקט)תודה רבה
-
-
@יהודי-טוב כתב בTTS ונרמול דאטה:
איזה שירות STT הכי טוב בעברית.
הבנתי ש AWS Transcribe הכי טוב כיום
@יהודי-טוב כתב בTTS ונרמול דאטה:
איזה מודל AI יכול הכי להתאים לזה.
כל מודל LLM איכותי עם פרומפט מתאים
הטובים הם Claude או GPT, אח"כ יש לך את Gemini שיש לו שכבה חינמית נדיבה מאוד ואיכות סבירה -
@יהודי-טוב אומרים שזה הכי טוב בעברית:
https://www.ivrit.ai/he/174-2/ -
@WWW כתב בTTS ונרמול דאטה:
@יהודי-טוב אומרים שזה הכי טוב בעברית:
https://www.ivrit.ai/he/174-2/בדקתי בינתיים רק בגוגל ובopenAI
התמלול הזה מאוד דומה לתמלול של openAI (הגיוני שזה על מודול שלהם)
כשגוגל יותר טוב בהרבה..נתתי גם לGPT להשוות לי בין התמלולים והוא גם היה לטובת גוגל....,
לא יצא לי בינתיים לבדוק בAWSבדקתי הקלטה אחת בשלשתם, ויכול להיות שזה לא בדיקה אמינה - שבהקלטה הזו היו נתונים שגוגל פענח בקלות יותר....
-
@יהודי-טוב כתב בTTS ונרמול דאטה:
התמלול הזה מאוד דומה לתמלול של openAI (הגיוני שזה על מודול שלהם)
המודל של OpenAI נקרא whisper והפרויקט הנ"ל של העברית הוא גם whisper שעבר fine-tuning על הרבה נתונים בעברית.
אגב יצא לי לבדוק את whisper עם whisper.cpp (שזה זמן ריצה של whisper) והתוצאות היו ממש טובות, לסרטון אקראי של 10 דקות התמלול היה מצוין עם טעויות בודדות, אבל בגרסאות הקטנות יותר (מתחת ל - medium) התמלול היה על הפנים.
-
@dovid כתב בTTS ונרמול דאטה:
@יהודי-טוב משונה, יש מצב שהתהפך לך התוצאות?
אני ממש לפני כמה ימים השוויתי את גוגל וOpenAI והשני היה טוב הרבה יותר.
אני בדקתי מלא הקלטות, ולא היה אפילו אחת לטובת גוגל.אולי השתמשתי במודול אחר
מצרף את הקוד שבדקתי
//OpenAI const openAi = await openaiConf.audio.transcriptions.create({ file: fs.createReadStream(tempFilePath), model: "whisper-1", response_format: "verbose_json", language: "he", }); //Google const file = fs.readFileSync(tempFilePath); const [responseGoogle] = await googleConf.recognize({ audio: { content: Buffer.from(file).toString('base64') }, config: { languageCode: 'iw-IL' }, });
אגב בכותרת כתבת בטעות TTS במקום STT.
תיקנתי