ניסיתי לאמן מודל אודיו שמזהה את טעמי המקרא, אך לא לגמרי הצליח. איך היית ניגשים לזה היום?

mendel

ניסיתי לבנות מודל שמזהה טעמי מקרא מאודיו.

הרעיון היה לקחת קטעי אודיו קצרים (ברמת מילה), להעביר אותם דרך ה־encoder של מודל Whisper של OpenAI, ולהוסיף מעליו classifier קטן שאומר אם ניגנתם את את הטעם הנכון (דרגה, פזר וכו’) או לא.
כדי לבנות את הדאטה, יישרתי (alignment) הקלטות של קריאה בטעמי המקרא מול הטקסט באמצעות כלי forced alignment, וכך חילקתי את האודיו למילים עם הטעם המתאים לכל אחת. (אז יש לי את ה Dataset).

הוספתי גם augmentation לאודיו (שינוי pitch, מהירות, רעש וכו’) וטיפלתי בבעיה של חוסר איזון בין הקטגוריות בזמן האימון. המודל עבד חלקית, אבל התקשה להבדיל בין טעמים דומים (אתנחתא/סוף פסוק..) ולא היה מספיק יציב לשימוש אמיתי.

בכל זאת, זה היה ניסוי מעניין בליישם מודל דיבור קיים על בעיה מאוד כזו, ולמדתי מזה הרבה על עיבוד אודיו, alignment, ומגבלות של מודלים.

אשמח לשמוע - איך הייתם ניגשים לבעיה כזאת לאמן בינה מלאכותית על טעמי המקרא? האם זה שהתמשתי ב Whisper היה טעות?

כמובן שיש שינויים לאשכנז/ספרד, וכו׳.

תחומים - פורום חרדי מקצועי

ניסיתי לאמן מודל אודיו שמזהה את טעמי המקרא, אך לא לגמרי הצליח. איך היית ניגשים לזה היום?