דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תוכנה
  3. חלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד

חלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד

מתוזמן נעוץ נעול הועבר תוכנה
21 פוסטים 8 כותבים 682 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • אורייא מנותק
    אורייא מנותק
    אוריי
    השיב לdavidnead ב נערך לאחרונה על ידי
    #10

    @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

    רצויה היכרות טובה מאוד עם ביטויים רגולריים

    את האמת
    את החלק הזה חסר לי מאוד
    חיפשתי בעבר מדריך טוב ולא מצאתי ..
    כאן בפורום מצאתי איזה מאמר קטן אבל ממש לא מקיף

    ניתן לפנות אלי גם ב al0548446188@gmail.com
    ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

    yossizY תגובה 1 תגובה אחרונה
    0
    • yossizY מנותק
      yossizY מנותק
      yossiz
      השיב לאוריי ב נערך לאחרונה על ידי yossiz
      #11

      @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

      עלה לי כעת עוד מחשבה ע"פ מש"כ @קומפיונט
      שאני יכול ליצור קוד שיחזיר לי את כל הר"ת בכל המסמכים לתוך טבלת אקסל, ופשוט לעבור אחד אחד ולחלק ל3 קטגוריות

      1. צריך להשאיר.
      2. ודאי למחוק.
      3. ספק.

      לאחר מכן על הספק לעשות בדיקה איזו מילה יש לו לפני

      בדיוק רציתי לכתוב כעין הרעיון הזה

      תכתוב קוד עם כמה חיפושים, ותפצל אותם לשתי רמות:

      • חיפושים שמוצאים לך מילים שבסבירות גבוהה/גבוהה מאוד שהם מספרים
      • ספקות - חיפושים שמוצאים לך מועמדים אפשריים, דברים שצריך בינה אנושית או מלאכותית ולראות את ההקשר כדי להחליט

      לפני שאתה עושה את ההחלפות בפועל, תעתיק את המילים שמצאת עם ההקשר (המילים שלפני/אחרי) לתוך רשימה שתוכל לסקור בקלות (אפשר קובץ אקסל או סתם רשימת טקסט) כדי שתוכל למצוא את כל מקרי הקצה האפשריים

      ברשימה של הקרובים לודאי, העבודה שלך הוא לסנן מתוכם את הזיהויים הלא נכונים שאמורים להיות ספקות,
      ברשימה של הספקות יש שתי עבודות, א) לדאוג שמצאת את כל הספקות האפשריים (זה לכאורה לא משהו מאתגר) ב) למצוא דרכים לשפר את החיפוש כך שתוכל להעביר כמה שיותר דברים לרשימה הראשונה

      תוך כדי העבודה, תתן את הדעת להשקיע הכי הרבה בכללים שיכולים להניב הכי הרבה תוצאות. אם תמצא מקרה קצה שמן הסתם קורה פעם פעמיים בכל הקובץ, תשקיע בזה פחות.

      אחרי שיש לך חיפושים טובים לשתי הרשימות תעשה על הרשימה של הקרובים לודאי החלפה גלובלית, ועל הרשימה השניה תוכל לצבוע את כל התוצאות ואז לעבור אחד אחד, או לעבוד על חיפושים יותר חכמים שכל אחד יטפל במקרה קצה אחד ולאט לאט תשפר את התוצאות

      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

      תגובה 1 תגובה אחרונה
      10
      • yossizY מנותק
        yossizY מנותק
        yossiz
        השיב לאוריי ב נערך לאחרונה על ידי yossiz
        #12

        @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

        @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

        רצויה היכרות טובה מאוד עם ביטויים רגולריים

        את האמת
        את החלק הזה חסר לי מאוד
        חיפשתי בעבר מדריך טוב ולא מצאתי ..
        כאן בפורום מצאתי איזה מאמר קטן אבל ממש לא מקיף

        שים לב שוורד יש לו שפת תווים כלליים משלו, (וגם יש כמה באגים במנוע)

        כאן יש דף עם תיעוד טוב:
        https://wordmvp.com/FAQs/General/UsingWildcards.htm

        תוכל גם לשאול כאן (״איך אני כותב ביטוי למצוא משהו שמתאים לתבנית XYZ״) ועד כמה שיהיה לי זמן וחשק אשמח לענות

        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

        תגובה 1 תגובה אחרונה
        4
        • D מנותק
          D מנותק
          davidnead
          כתב ב נערך לאחרונה על ידי
          #13

          ראשית המאמר כאן בפורום הוא אחד הטובים שקראתי בעברית, והוא עזר לי בעבר להיכנס לעולם הזה.
          שנית אין חומר בעברית שמקיף את הנושא, לפחות לא חומר מקוון. ביטויים רגולריים זה נושא עשיר ומפותח, ורוב האנשים המשתמשים בהם משתמשים רק ביכולות הבסיסיות.
          יש איזשהו אתר מיושן באנגלית שכל פעם אני מסתבל למצוא אותו שיש שם תיעוד רב והסברים רבים.

          לגבי וורד והסימנים המיוחדים שלו - אני חושב שזה ממש לא יכול להיות הדרך לעבודה כזו. זה צריך להיות קוד טהור.

          yossizY 2 תגובות תגובה אחרונה
          3
          • yossizY מנותק
            yossizY מנותק
            yossiz
            השיב לdavidnead ב נערך לאחרונה על ידי
            #14

            @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

            יש איזשהו אתר מיושן באנגלית שכל פעם אני מסתבל למצוא אותו שיש שם תיעוד רב והסברים רבים.

            https://www.regular-expressions.info?
            יש שם המון מידע

            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

            תגובה 1 תגובה אחרונה
            3
            • yossizY מנותק
              yossizY מנותק
              yossiz
              השיב לdavidnead ב נערך לאחרונה על ידי yossiz
              #15

              @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

              לגבי וורד והסימנים המיוחדים שלו - אני חושב שזה ממש לא יכול להיות הדרך לעבודה כזו. זה צריך להיות קוד טהור.

              מדובר על קבצי וורד, אני לא חושב שלכתוב פרוייקט בשפה אחרת (שהשואל לא מכיר) הוא פתרון מתאים פה.
              ב-VBA אין מימוש של regex נורמלי, רק המוזרים של וורד.
              (אולי אפשר לייבא ספרייה)
              (אני שופט לפי היסטוריית הפוסטים ש @אוריי מסתדר טוב ב-VBA אבל לא בקי בשפות ופלטפורמות אחרות)

              📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

              OdedDvirO תגובה 1 תגובה אחרונה
              4
              • אורייא מנותק
                אורייא מנותק
                אוריי
                כתב ב נערך לאחרונה על ידי אוריי
                #16

                ראשית כל ברצוני להודות לכל המשיבים שעמלו מזמנם היקר...
                לסיכום:
                מה שאני צריך לעשות כדי להגיע לתוצאה המיטבית זה כך:

                1. ליצור רשימה של כל הסימנים שיש באקסל או באקסס (כולל גרשיים ומקפים לפי הצורך) א' ב' ג' ... י"א.. י"ב וכו' ולסדר את המילים הרעות כגון תרצ"ח וכו' (או גם וגם).
                2. לעבור על הרשימה ולסמן אלו אופציות ודאי לא יכול להיות חוץ מסימנים.
                3. לחפש את כל התוצאות שנשארו ולקבל אותם לתוך טבלה (אקסס או אקסל), עמודה ראשונה 3 מילים לפני, עמודה שניה התוצאה, עמודה שלישית 3 מילים אחרי.
                4. לעבור על הרשימה ולסמן אלו תוצאות שיש לפניהם מילים שמכריחות סימן ואלו זה וודאי ר"ת בפני עצמם.
                5. ואת כל השאר שנשארו ספק לסמן בסגנון נפרד ולעבור עליהם ידנית.

                כעת עומדות לפני 2 שאלות:

                1. האם לעשות את הטבלה באקסס או באקסל?
                2. היות ויש לי עשרות קבצים כאלו (למעלה ממאה) האם לעשות קוד באקסס \ אקסל שיגש לקובץ וורד או ליצור קוד בוורד שיגש לdb שלו שזה אקסס \ אקסל.

                ניתן לפנות אלי גם ב al0548446188@gmail.com
                ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

                תגובה 1 תגובה אחרונה
                0
                • OdedDvirO מנותק
                  OdedDvirO מנותק
                  OdedDvir
                  השיב לyossiz ב נערך לאחרונה על ידי
                  #17

                  @yossiz כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

                  ב-VBA אין מימוש של regex נורמלי, רק המוזרים של וורד.
                  (אולי אפשר לייבא ספרייה)

                  אפשרי בהחלט. שם הספריה:
                  Microsoft VBScript Regular Expressions

                  • אפשר להתקין בקישור מוקדם (Early Binding) מתפריט עורך ה-VBA:
                    Tools > References > Microsoft VBScript Regular Expressions
                    ולסמן V על הספריה הנ"ל, ואז להשתמש בקוד כך:
                  Dim RegExp As New RegExp
                  Function RemoveAllButNumbers(s As String) As String
                      With RegExp
                          .Pattern = "\D"
                          .Global = True
                          RemoveAllButNumbers = .Replace(s, "")
                      End With
                  End Function
                  
                  • או לקשר ישירות בקוד (Late Binding) כך:
                  Function RemoveAllButNumbers(s As String) As String
                      With CreateObject("VBScript.RegExp")
                          .Pattern = "\D"
                          .Global = True
                          RemoveAllButNumbers = .Replace(s, "")
                      End With
                  End Function
                  
                  yossizY תגובה 1 תגובה אחרונה
                  5
                  • Y.Excel.AccessY מנותק
                    Y.Excel.AccessY מנותק
                    Y.Excel.Access
                    כתב ב נערך לאחרונה על ידי
                    #18

                    עברתי קצת על הקובץ, וכן, אני לא רואה בקלות משהו אחיד לכל הראשי תיבות.
                    אבל אפשר כמובן להוציא מן הכלל הרבה עבודה לפני שמתחילים ידנית, וכמו שכתבת.
                    רק אוסיף עוד - צריך לבדוק גם אם יש לפני או אחרי מילת הראשי תיבות תווים. לדוגמא אם יש אח"כ נקודה, פסיק, או סגור סוגריים וכדו' וזו תהיה עוד אינדיקציה לעבוד איתה, ולא רק המילים עצמם שלפני ואחרי.

                    פיתחתי משהו דומה - תיקון והגהת טקסט, והלוגיקה דומה קצת. אבל לא מצאתי פתרון קסם...
                    להחלפות מסוג כזה הפתרון הכי טוב שלי היה להתנהל לפי כללים ברורים מראש בהקלדת החבורות בכל מה שאני ארצה לשנות.

                    בהצלחה!

                    Y.Excel.Access @ gmail.com

                    תגובה 1 תגובה אחרונה
                    0
                    • yossizY מנותק
                      yossizY מנותק
                      yossiz
                      השיב לOdedDvir ב נערך לאחרונה על ידי yossiz
                      #19

                      @OdedDvir האם אפשר בקלות להשתמש בספריה זו לחפש ולהחליף בתוך מסמך וורד?
                      לפום ריהטא זה עובד על מחרוזות ולא על מסמכים

                      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                      OdedDvirO תגובה 1 תגובה אחרונה
                      0
                      • OdedDvirO מנותק
                        OdedDvirO מנותק
                        OdedDvir
                        השיב לyossiz ב נערך לאחרונה על ידי
                        #20

                        @yossiz אפשר לקבל את כל תוכן הטקסט של המסמך על ידי:

                        ActiveDocument.Content.Text
                        

                        אכן זה מוגבל ל 2,147,483,647 תוים לכל היותר, לפי הגדרת האובייקט String ב-VBA.

                        לשם קנה מידה, מדובר על כ-500 עמודים כתובים בכתב צפוף, ומכילים כ-350,000 מילים.

                        dovidD תגובה 1 תגובה אחרונה
                        4
                        • dovidD מנותק
                          dovidD מנותק
                          dovid ניהול
                          השיב לOdedDvir ב נערך לאחרונה על ידי
                          #21

                          חסר לי משהו, אולי זה כבר נאמר והחמצתי.
                          מה מטרת הניתוח?
                          מה יעשו עם התוצאות?

                          מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

                          בכל נושא אפשר ליצור קשר dovid@tchumim.com

                          תגובה 1 תגובה אחרונה
                          0
                          • yossizY yossiz התייחס לנושא זה ב

                          • 1
                          • 2
                          בא תתחבר לדף היומי!
                          • התחברות

                          • אין לך חשבון עדיין? הרשמה

                          • התחברו או הירשמו כדי לחפש.
                          • פוסט ראשון
                            פוסט אחרון
                          0
                          • דף הבית
                          • קטגוריות
                          • פוסטים אחרונים
                          • משתמשים
                          • חיפוש
                          • חוקי הפורום