דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תכנות
  3. API לקבלת רשימת דפים וסימנים בספרי היסוד התורניים

API לקבלת רשימת דפים וסימנים בספרי היסוד התורניים

מתוזמן נעוץ נעול הועבר תכנות
7 פוסטים 4 כותבים 513 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • NH.LOCALN מנותק
    NH.LOCALN מנותק
    NH.LOCAL
    כתב ב נערך לאחרונה על ידי
    #1

    לצורך אפליקצייה מסויימת שאני בונה אני צריך רשימה של מספר הפרקים / דפים / סימנים בספרי היסוד התורניים.

    האם יש API דרכו ניתן לבצע זאת? הבנתי שניתן לעשות זאת עם ה-API של ספריא, אבל בפועל לא ממש הסתדרתי עם זה

    🤖 למעקב אחרי התפתחויות חשובות בבינה המלאכותית
    https://nhlocal.github.io/AiTimeline

    האדם החושבה תגובה 1 תגובה אחרונה
    1
    • dovidD מנותק
      dovidD מנותק
      dovid ניהול
      כתב ב נערך לאחרונה על ידי dovid
      #2

      אפשר לעשות זאת עם סקריפט בדומה למה שהראיתי (וגם @צדיק-תמים) פה:
      https://tchumim.com/topic/15896/בקשה-רשימת-דפים-סימנים-שמתחילים-בהם-פרקים-נושאים-בשס-טושע

      אולי זה עבודה אבל זה גם כיף :).

      מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

      בכל נושא אפשר ליצור קשר dovid@tchumim.com

      תגובה 1 תגובה אחרונה
      1
      • האדם החושבה מנותק
        האדם החושבה מנותק
        האדם החושב
        השיב לNH.LOCAL ב נערך לאחרונה על ידי
        #3

        @NH-LOCAL
        https://github.com/lisrael1/bavli_pages
        זה לש"ס, לשאר הספרים אם יש לך את אוצריא אתה יכול פשוט לשאוב משם את הנתונים לפי רמות הכותרות.

        תגובה 1 תגובה אחרונה
        1
        • NH.LOCALN מנותק
          NH.LOCALN מנותק
          NH.LOCAL
          כתב ב נערך לאחרונה על ידי NH.LOCAL
          #4

          ניסיתי משהו דומה על בסיס אוצריא. בפועל כבר יותר פשוט לבדוק את המידע ידנית

          🤖 למעקב אחרי התפתחויות חשובות בבינה המלאכותית
          https://nhlocal.github.io/AiTimeline

          האדם החושבה תגובה 1 תגובה אחרונה
          0
          • האדם החושבה מנותק
            האדם החושבה מנותק
            האדם החושב
            השיב לNH.LOCAL ב נערך לאחרונה על ידי
            #5

            @NH-LOCAL
            למה?, סקריפט מאוד פשוט

            from bs4 import BeautifulSoup
            
            def get_toc(file_path, level = 2):
                with open(file_path, "r", encoding="utf-8") as f:
                    content = f.read()
                soup = BeautifulSoup(content, "html.parser")
                list_all = list(tag.string for tag in soup.find_all(f"h{level}"))
                return list_all
            

            אגב אתה יכול להשתמש גם בapi של מדיה ויקי, משהו בסגנון הזה:

            def get_list_by_category(category: str)->list:
                """מחזיר רשימת דפים שנמצאים בקטגוריה מסוימת."""
                i = 0
                pages = []
                cmcontinue = ''
                while True:
                    i += 1
                    params = {
                        'action': 'query',
                        'list': 'categorymembers',
                        'cmtitle': category,
                        'cmtype': 'page',
                        'cmlimit': 'max',
                        'format': 'json',
                        'cmcontinue': cmcontinue
                    }
                    response = requests.get(BASE_URL, params=params)
                    data = response.json()
                    if 'query' in data and 'categorymembers' in data['query']:
                        pages.extend([page["title"] for page in data['query']['categorymembers']])
                    else:
                        print("Error fetching pages:", data) 
                        break
                    if 'continue' not in data:
                        break
                    cmcontinue = data['continue']['cmcontinue']
                    print(f"Fetching pages: batch {i}")
                return pages
            
            תגובה 1 תגובה אחרונה
            1
            • NH.LOCALN מנותק
              NH.LOCALN מנותק
              NH.LOCAL
              כתב ב נערך לאחרונה על ידי NH.LOCAL
              #6

              הבעיה באוצריא שיש חוסר עקביות ברמת הכותרות. למשל, שמתי לב שהסימנים בשולחן ערוך מוגדרים כ-H2, אבל באבן העזר הם מוגדרים כ-H3, מה שיצר טעות בזיהוי המספר (השתמשתי בניתוח פשוט של קבצי הטקסט, לא עם bsoup)

              🤖 למעקב אחרי התפתחויות חשובות בבינה המלאכותית
              https://nhlocal.github.io/AiTimeline

              pcinfogmachP תגובה 1 תגובה אחרונה
              1
              • pcinfogmachP מנותק
                pcinfogmachP מנותק
                pcinfogmach
                השיב לNH.LOCAL ב נערך לאחרונה על ידי
                #7

                @NH-LOCAL
                כדי להתגבר על חוסר העקביות ברמות הכותרות, אפשר להשתמש במבנה היררכי, כמו Stack, כדי לעקוב אחר ה-parent האחרון. כך ניתן לתקן את רמת הכותרת בהתאם להקשר ולהבטיח זיהוי נכון של המספרים והכותרות.

                גמ"ח מידע מחשבים ואופיס

                תגובה 1 תגובה אחרונה
                2

                בא תתחבר לדף היומי!
                • התחברות

                • אין לך חשבון עדיין? הרשמה

                • התחברו או הירשמו כדי לחפש.
                • פוסט ראשון
                  פוסט אחרון
                0
                • דף הבית
                • קטגוריות
                • פוסטים אחרונים
                • משתמשים
                • חיפוש
                • חוקי הפורום