דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תכנות
  3. API לקבלת רשימת דפים וסימנים בספרי היסוד התורניים

API לקבלת רשימת דפים וסימנים בספרי היסוד התורניים

מתוזמן נעוץ נעול הועבר תכנות
11 פוסטים 6 כותבים 948 צפיות 6 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • dovidD מחובר
    dovidD מחובר
    dovid
    ניהול
    כתב ב נערך לאחרונה על ידי dovid
    #2

    אפשר לעשות זאת עם סקריפט בדומה למה שהראיתי (וגם @צדיק-תמים) פה:
    https://tchumim.com/topic/15896/בקשה-רשימת-דפים-סימנים-שמתחילים-בהם-פרקים-נושאים-בשס-טושע

    אולי זה עבודה אבל זה גם כיף :).

    • מנטור אישי בתכנות והמסתעף – להתקדם לשלב הבא!
    • בכל נושא אפשר ליצור קשר dovid@tchumim.com
    תגובה 1 תגובה אחרונה
    1
    • NH.LOCALN NH.LOCAL

      לצורך אפליקצייה מסויימת שאני בונה אני צריך רשימה של מספר הפרקים / דפים / סימנים בספרי היסוד התורניים.

      האם יש API דרכו ניתן לבצע זאת? הבנתי שניתן לעשות זאת עם ה-API של ספריא, אבל בפועל לא ממש הסתדרתי עם זה

      האדם החושבה מנותק
      האדם החושבה מנותק
      האדם החושב
      כתב ב נערך לאחרונה על ידי
      #3

      @NH-LOCAL
      https://github.com/lisrael1/bavli_pages
      זה לש"ס, לשאר הספרים אם יש לך את אוצריא אתה יכול פשוט לשאוב משם את הנתונים לפי רמות הכותרות.

      תגובה 1 תגובה אחרונה
      1
      • NH.LOCALN מנותק
        NH.LOCALN מנותק
        NH.LOCAL
        כתב ב נערך לאחרונה על ידי NH.LOCAL
        #4

        ניסיתי משהו דומה על בסיס אוצריא. בפועל כבר יותר פשוט לבדוק את המידע ידנית

        אלף בוט - תמלול מדויק לתוכן תורני
        https://alef-bot.top

        האדם החושבה תגובה 1 תגובה אחרונה
        0
        • NH.LOCALN NH.LOCAL

          ניסיתי משהו דומה על בסיס אוצריא. בפועל כבר יותר פשוט לבדוק את המידע ידנית

          האדם החושבה מנותק
          האדם החושבה מנותק
          האדם החושב
          כתב ב נערך לאחרונה על ידי
          #5

          @NH-LOCAL
          למה?, סקריפט מאוד פשוט

          from bs4 import BeautifulSoup
          
          def get_toc(file_path, level = 2):
              with open(file_path, "r", encoding="utf-8") as f:
                  content = f.read()
              soup = BeautifulSoup(content, "html.parser")
              list_all = list(tag.string for tag in soup.find_all(f"h{level}"))
              return list_all
          

          אגב אתה יכול להשתמש גם בapi של מדיה ויקי, משהו בסגנון הזה:

          def get_list_by_category(category: str)->list:
              """מחזיר רשימת דפים שנמצאים בקטגוריה מסוימת."""
              i = 0
              pages = []
              cmcontinue = ''
              while True:
                  i += 1
                  params = {
                      'action': 'query',
                      'list': 'categorymembers',
                      'cmtitle': category,
                      'cmtype': 'page',
                      'cmlimit': 'max',
                      'format': 'json',
                      'cmcontinue': cmcontinue
                  }
                  response = requests.get(BASE_URL, params=params)
                  data = response.json()
                  if 'query' in data and 'categorymembers' in data['query']:
                      pages.extend([page["title"] for page in data['query']['categorymembers']])
                  else:
                      print("Error fetching pages:", data) 
                      break
                  if 'continue' not in data:
                      break
                  cmcontinue = data['continue']['cmcontinue']
                  print(f"Fetching pages: batch {i}")
              return pages
          
          תגובה 1 תגובה אחרונה
          1
          • NH.LOCALN מנותק
            NH.LOCALN מנותק
            NH.LOCAL
            כתב ב נערך לאחרונה על ידי NH.LOCAL
            #6

            הבעיה באוצריא שיש חוסר עקביות ברמת הכותרות. למשל, שמתי לב שהסימנים בשולחן ערוך מוגדרים כ-H2, אבל באבן העזר הם מוגדרים כ-H3, מה שיצר טעות בזיהוי המספר (השתמשתי בניתוח פשוט של קבצי הטקסט, לא עם bsoup)

            אלף בוט - תמלול מדויק לתוכן תורני
            https://alef-bot.top

            pcinfogmachP תגובה 1 תגובה אחרונה
            1
            • NH.LOCALN NH.LOCAL

              הבעיה באוצריא שיש חוסר עקביות ברמת הכותרות. למשל, שמתי לב שהסימנים בשולחן ערוך מוגדרים כ-H2, אבל באבן העזר הם מוגדרים כ-H3, מה שיצר טעות בזיהוי המספר (השתמשתי בניתוח פשוט של קבצי הטקסט, לא עם bsoup)

              pcinfogmachP מנותק
              pcinfogmachP מנותק
              pcinfogmach
              כתב ב נערך לאחרונה על ידי
              #7

              @NH-LOCAL
              כדי להתגבר על חוסר העקביות ברמות הכותרות, אפשר להשתמש במבנה היררכי, כמו Stack, כדי לעקוב אחר ה-parent האחרון. כך ניתן לתקן את רמת הכותרת בהתאם להקשר ולהבטיח זיהוי נכון של המספרים והכותרות.

              גמ"ח מידע מחשבים ואופיס

              תגובה 1 תגובה אחרונה
              2
              • NH.LOCALN מנותק
                NH.LOCALN מנותק
                NH.LOCAL
                כתב ב נערך לאחרונה על ידי NH.LOCAL
                #8

                למי שיראה את השרשור הזה, ניתן לקבל נתוני פרקים ואורך של ספרי יסוד במערך הנתונים שפרסמתי ב-HF

                https://huggingface.co/datasets/NHLOCAL/judaic-texts-structure

                אלף בוט - תמלול מדויק לתוכן תורני
                https://alef-bot.top

                יגעתי ומצאתיי תגובה 1 תגובה אחרונה
                3
                • NH.LOCALN NH.LOCAL

                  למי שיראה את השרשור הזה, ניתן לקבל נתוני פרקים ואורך של ספרי יסוד במערך הנתונים שפרסמתי ב-HF

                  https://huggingface.co/datasets/NHLOCAL/judaic-texts-structure

                  יגעתי ומצאתיי מנותק
                  יגעתי ומצאתיי מנותק
                  יגעתי ומצאתי
                  כתב ב נערך לאחרונה על ידי
                  #9

                  @NH.LOCAL
                  ואוו בדיוק הייתי צריך את זה היום
                  השגחה פרטית!

                  תגובה 1 תגובה אחרונה
                  2
                  • mendelM מנותק
                    mendelM מנותק
                    mendel
                    כתב נערך לאחרונה על ידי mendel
                    #10

                    מעניין @NH.LOCAL כי בדיוק פרסמתי במתמחים אפליקציה דומה שבניתי.

                    (אולי יש פה תחרות 😅. )

                    אז יש לי את המידע לרוב. תגיד אם אתה צריך משהו/ספר ספיציפי

                    NH.LOCALN תגובה 1 תגובה אחרונה
                    1
                    • mendelM mendel

                      מעניין @NH.LOCAL כי בדיוק פרסמתי במתמחים אפליקציה דומה שבניתי.

                      (אולי יש פה תחרות 😅. )

                      אז יש לי את המידע לרוב. תגיד אם אתה צריך משהו/ספר ספיציפי

                      NH.LOCALN מנותק
                      NH.LOCALN מנותק
                      NH.LOCAL
                      כתב נערך לאחרונה על ידי NH.LOCAL
                      #11

                      @mendel כתב בAPI לקבלת רשימת דפים וסימנים בספרי היסוד התורניים:

                      מעניין @NH.LOCAL כי בדיוק פרסמתי במתמחים אפליקציה דומה שבניתי.

                      (אולי יש פה תחרות 😅. )

                      אז יש לי את המידע לרוב. תגיד אם אתה צריך משהו/ספר ספיציפי

                      אדרבה. תחרות זה מצוין. (בטח במשהו שגם ככה לא נוצר למטרות רווח 😉)
                      אם יש לך את הנתונים בצורה מסודרת, אולי כדאי שתפרסם אותם איפשהו כקוד פתוח, ב-HF או בגיטהאב

                      אם כי למעשה את אפליקציית שמור וזכור יצרתי כבר לפני קרוב לשנה

                      אלף בוט - תמלול מדויק לתוכן תורני
                      https://alef-bot.top

                      תגובה 1 תגובה אחרונה
                      1
                      תגובה
                      • תגובה כנושא
                      התחברו כדי לפרסם תגובה
                      • מהישן לחדש
                      • מהחדש לישן
                      • הכי הרבה הצבעות


                      בא תתחבר לדף היומי!
                      • התחברות

                      • אין לך חשבון עדיין? הרשמה

                      • התחברו או הירשמו כדי לחפש.
                      • פוסט ראשון
                        פוסט אחרון
                      0
                      • דף הבית
                      • קטגוריות
                      • פוסטים אחרונים
                      • משתמשים
                      • חיפוש
                      • חוקי הפורום