<![CDATA[ניסיתי לאמן מודל אודיו שמזהה את טעמי המקרא, אך לא לגמרי הצליח. איך היית ניגשים לזה היום?]]>

<![CDATA[ניסיתי לאמן מודל אודיו שמזהה את טעמי המקרא, אך לא לגמרי הצליח. איך היית ניגשים לזה היום?]]>ניסיתי לבנות מודל שמזהה טעמי מקרא מאודיו.

הרעיון היה לקחת קטעי אודיו קצרים (ברמת מילה), להעביר אותם דרך ה־encoder של מודל Whisper של OpenAI, ולהוסיף מעליו classifier קטן שאומר אם ניגנתם את את הטעם הנכון (דרגה, פזר וכו’) או לא.
כדי לבנות את הדאטה, יישרתי (alignment) הקלטות של קריאה בטעמי המקרא מול הטקסט באמצעות כלי forced alignment, וכך חילקתי את האודיו למילים עם הטעם המתאים לכל אחת. (אז יש לי את ה Dataset).

הוספתי גם augmentation לאודיו (שינוי pitch, מהירות, רעש וכו’) וטיפלתי בבעיה של חוסר איזון בין הקטגוריות בזמן האימון. המודל עבד חלקית, אבל התקשה להבדיל בין טעמים דומים (אתנחתא/סוף פסוק..) ולא היה מספיק יציב לשימוש אמיתי.

בכל זאת, זה היה ניסוי מעניין בליישם מודל דיבור קיים על בעיה מאוד כזו, ולמדתי מזה הרבה על עיבוד אודיו, alignment, ומגבלות של מודלים.

אשמח לשמוע - איך הייתם ניגשים לבעיה כזאת לאמן בינה מלאכותית על טעמי המקרא? האם זה שהתמשתי ב Whisper היה טעות?

כמובן שיש שינויים לאשכנז/ספרד, וכו׳.

]]>https://tchumim.com/topic/17468/ניסיתי-לאמן-מודל-אודיו-שמזהה-את-טעמי-המקרא-אך-לא-לגמרי-הצליח.-איך-היית-ניגשים-לזה-היוםRSS for NodeThu, 16 Apr 2026 04:17:38 GMTMon, 13 Apr 2026 14:14:12 GMT60