לאחרונה עשיתי צעדים ראשונים בעולם ה-machine learning. במהלך הנסיונות יצרתי כמה מודלים לכמה מטרות, בין השאר - מודל שמזהה האם משפט מסויים הוא מהתנ"ך או מכל מקום אחר.
לצורך כך השתמשתי ברשימה של כ-500 פסוקים ממקומות שונים בתנ"ך ושל כ-500 משפטים בסגונונת שונים, כמו חדשות, בדיחות, סיפורים, מונולוגים, ועוד.
טוב, זה לא הדבר הכי שימושי בעולם, זה בא בעיקר בשביל להדגים את היכולות של למידת מכונה.
האמת היא, שכמעט לא עשיתי שום דבר בעצמי. בניית הקוד הבסיסי, ואפילו מערך הנתונים, נוצר בעזרתו האדיבה של צ'אט GPT.
המודל מצליח לזהות משפטים ברמה טובה למדי, וניתן לנסות אותו בקלות על ידי הורדת קובץ השחרור מהמאגר בגיטהאב.
תוכלו להריץ את הקובץ try_model כדי לראות רשימת משפטים לדוגמה עם הזיהוי "bible" או "other", כולל רמת הוודאות של הזיהוי. בנוסף, תוכלו להכניס משפט כלשהו כפרמטר משורת הפקודה עם מרכאות בתחילת וסוף המשפט.
ניתן לחפש את המשפט הספציפי בתוך הקובץ bible_data.csv שמכיל את מערך הנתונים, כדי לוודא שהמשפט לא הוזן למודל מראש.
כדי להריץ את המודל בפועל יש להוריד עם pip את המודלים joblib ו- nltk.
דוגמה:
קלט שלילי:
try_model.py "האתר תחומים מכיל שאלות בנושאי תכנות ונושאים אחרים"
פלט:
Text: האתר תחומים מכיל שאלות בנושאי תכנות ונושאים אחרים | Prediction: Other | Confidence Score: 0.3112
קלט חיובי:
try_model.py "עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך"
פלט:
Text: עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך ויסדתיך בספירים | Prediction: Bible | Confidence Score: 1.0000
קישור למאגר עצמו - https://github.com/NHLOCAL/is-this-bible