דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תוכנה
  3. חלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד

חלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד

מתוזמן נעוץ נעול הועבר תוכנה
21 פוסטים 8 כותבים 682 צפיות
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • אורייא מנותק
    אורייא מנותק
    אוריי
    השיב לdavidnead ב נערך לאחרונה על ידי
    #7

    @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

    ולכן זה תלוי בעיקר בכמות הטקסט ובחשיבות שלו עבורך. אם כמות הטקסט לא גדולה אבל מורכבותו כן - לפעמים עדיף לעשות זאת ידנית. כי העבודה שדרושה היא סזיפית במובן מסויים ודורשת המון התאמות וחוזר חלילה. זה צריך להיות משתלם.

    @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

    לעבור על למעלה מכמה מיליוני מילים ואין הצר שווה ...

    ניתן לפנות אלי גם ב al0548446188@gmail.com
    ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

    D תגובה 1 תגובה אחרונה
    0
    • D מנותק
      D מנותק
      davidnead
      השיב לאוריי ב נערך לאחרונה על ידי
      #8

      @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

      @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

      ולכן זה תלוי בעיקר בכמות הטקסט ובחשיבות שלו עבורך. אם כמות הטקסט לא גדולה אבל מורכבותו כן - לפעמים עדיף לעשות זאת ידנית. כי העבודה שדרושה היא סזיפית במובן מסויים ודורשת המון התאמות וחוזר חלילה. זה צריך להיות משתלם.

      @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

      לעבור על למעלה מכמה מיליוני מילים ואין הצר שווה ...

      השאלה כמה חשוב לך המטרה ואתה מוכן להשקיע בשבילה.

      זרקו פה לעיל 2-3 רעיונות שיקדמו אותך לזיהוי מילה שהיא ראשי תיבות וכדומה. אבל בסופו של תהליך אם תיכנס אליו אתה תצטרך לשלב עשרות רבות אם לא מאות של רעיונות כאלו כדי להגיע לתוצאה. צריך יצירתיות ונכונות לעבודה סזיפית.
      רצויה היכרות טובה מאוד עם ביטויים רגולריים.
      רצוי רשימות/מאגרים בסיסיים כמו רשימת מסכתות וראשית תיבות שלהם, רשימת ספרי ראשונים ואחרונים בסיסיים וראשי תיבות מקובלים, ועוד. הכל תלוי באופי הטקסט כמון, שאיני מכירו.
      תוכל להעזר בי בפרטי לשאלות ספציפיות, ככל שיאפשר לי הפנאי המצומצם שלי.

      אורייא תגובה 1 תגובה אחרונה
      3
      • אורייא מנותק
        אורייא מנותק
        אוריי
        כתב ב נערך לאחרונה על ידי אוריי
        #9

        עלה לי כעת עוד מחשבה ע"פ מש"כ @קומפיונט
        שאני יכול ליצור קוד שיחזיר לי את כל הר"ת בכל המסמכים לתוך טבלת אקסל, ופשוט לעבור אחד אחד ולחלק ל3 קטגוריות

        1. צריך להשאיר.
        2. ודאי למחוק.
        3. ספק.

        לאחר מכן על הספק לעשות בדיקה איזו מילה יש לו לפני ולפי"ז למחוק או להשאיר ומה שנשאר בספק שיסמן לי אותו בסגנון נפרד ולעבור ע"ז ידנית.

        השאלה היא האם זו הדרך הנכונה?
        והאם זה לא מידי אגרסיבי לקוד vba החלש לעשות מליוני פעולות בצורה כזו?

        עריכה: ראוי לציין שהחומר הוא די עקבי ...

        ניתן לפנות אלי גם ב al0548446188@gmail.com
        ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

        yossizY תגובה 1 תגובה אחרונה
        4
        • אורייא מנותק
          אורייא מנותק
          אוריי
          השיב לdavidnead ב נערך לאחרונה על ידי
          #10

          @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

          רצויה היכרות טובה מאוד עם ביטויים רגולריים

          את האמת
          את החלק הזה חסר לי מאוד
          חיפשתי בעבר מדריך טוב ולא מצאתי ..
          כאן בפורום מצאתי איזה מאמר קטן אבל ממש לא מקיף

          ניתן לפנות אלי גם ב al0548446188@gmail.com
          ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

          yossizY תגובה 1 תגובה אחרונה
          0
          • yossizY מנותק
            yossizY מנותק
            yossiz
            השיב לאוריי ב נערך לאחרונה על ידי yossiz
            #11

            @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

            עלה לי כעת עוד מחשבה ע"פ מש"כ @קומפיונט
            שאני יכול ליצור קוד שיחזיר לי את כל הר"ת בכל המסמכים לתוך טבלת אקסל, ופשוט לעבור אחד אחד ולחלק ל3 קטגוריות

            1. צריך להשאיר.
            2. ודאי למחוק.
            3. ספק.

            לאחר מכן על הספק לעשות בדיקה איזו מילה יש לו לפני

            בדיוק רציתי לכתוב כעין הרעיון הזה

            תכתוב קוד עם כמה חיפושים, ותפצל אותם לשתי רמות:

            • חיפושים שמוצאים לך מילים שבסבירות גבוהה/גבוהה מאוד שהם מספרים
            • ספקות - חיפושים שמוצאים לך מועמדים אפשריים, דברים שצריך בינה אנושית או מלאכותית ולראות את ההקשר כדי להחליט

            לפני שאתה עושה את ההחלפות בפועל, תעתיק את המילים שמצאת עם ההקשר (המילים שלפני/אחרי) לתוך רשימה שתוכל לסקור בקלות (אפשר קובץ אקסל או סתם רשימת טקסט) כדי שתוכל למצוא את כל מקרי הקצה האפשריים

            ברשימה של הקרובים לודאי, העבודה שלך הוא לסנן מתוכם את הזיהויים הלא נכונים שאמורים להיות ספקות,
            ברשימה של הספקות יש שתי עבודות, א) לדאוג שמצאת את כל הספקות האפשריים (זה לכאורה לא משהו מאתגר) ב) למצוא דרכים לשפר את החיפוש כך שתוכל להעביר כמה שיותר דברים לרשימה הראשונה

            תוך כדי העבודה, תתן את הדעת להשקיע הכי הרבה בכללים שיכולים להניב הכי הרבה תוצאות. אם תמצא מקרה קצה שמן הסתם קורה פעם פעמיים בכל הקובץ, תשקיע בזה פחות.

            אחרי שיש לך חיפושים טובים לשתי הרשימות תעשה על הרשימה של הקרובים לודאי החלפה גלובלית, ועל הרשימה השניה תוכל לצבוע את כל התוצאות ואז לעבור אחד אחד, או לעבוד על חיפושים יותר חכמים שכל אחד יטפל במקרה קצה אחד ולאט לאט תשפר את התוצאות

            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

            תגובה 1 תגובה אחרונה
            10
            • yossizY מנותק
              yossizY מנותק
              yossiz
              השיב לאוריי ב נערך לאחרונה על ידי yossiz
              #12

              @אוריי כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

              @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

              רצויה היכרות טובה מאוד עם ביטויים רגולריים

              את האמת
              את החלק הזה חסר לי מאוד
              חיפשתי בעבר מדריך טוב ולא מצאתי ..
              כאן בפורום מצאתי איזה מאמר קטן אבל ממש לא מקיף

              שים לב שוורד יש לו שפת תווים כלליים משלו, (וגם יש כמה באגים במנוע)

              כאן יש דף עם תיעוד טוב:
              https://wordmvp.com/FAQs/General/UsingWildcards.htm

              תוכל גם לשאול כאן (״איך אני כותב ביטוי למצוא משהו שמתאים לתבנית XYZ״) ועד כמה שיהיה לי זמן וחשק אשמח לענות

              📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

              תגובה 1 תגובה אחרונה
              4
              • D מנותק
                D מנותק
                davidnead
                כתב ב נערך לאחרונה על ידי
                #13

                ראשית המאמר כאן בפורום הוא אחד הטובים שקראתי בעברית, והוא עזר לי בעבר להיכנס לעולם הזה.
                שנית אין חומר בעברית שמקיף את הנושא, לפחות לא חומר מקוון. ביטויים רגולריים זה נושא עשיר ומפותח, ורוב האנשים המשתמשים בהם משתמשים רק ביכולות הבסיסיות.
                יש איזשהו אתר מיושן באנגלית שכל פעם אני מסתבל למצוא אותו שיש שם תיעוד רב והסברים רבים.

                לגבי וורד והסימנים המיוחדים שלו - אני חושב שזה ממש לא יכול להיות הדרך לעבודה כזו. זה צריך להיות קוד טהור.

                yossizY 2 תגובות תגובה אחרונה
                3
                • yossizY מנותק
                  yossizY מנותק
                  yossiz
                  השיב לdavidnead ב נערך לאחרונה על ידי
                  #14

                  @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

                  יש איזשהו אתר מיושן באנגלית שכל פעם אני מסתבל למצוא אותו שיש שם תיעוד רב והסברים רבים.

                  https://www.regular-expressions.info?
                  יש שם המון מידע

                  📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                  תגובה 1 תגובה אחרונה
                  3
                  • yossizY מנותק
                    yossizY מנותק
                    yossiz
                    השיב לdavidnead ב נערך לאחרונה על ידי yossiz
                    #15

                    @davidnead כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

                    לגבי וורד והסימנים המיוחדים שלו - אני חושב שזה ממש לא יכול להיות הדרך לעבודה כזו. זה צריך להיות קוד טהור.

                    מדובר על קבצי וורד, אני לא חושב שלכתוב פרוייקט בשפה אחרת (שהשואל לא מכיר) הוא פתרון מתאים פה.
                    ב-VBA אין מימוש של regex נורמלי, רק המוזרים של וורד.
                    (אולי אפשר לייבא ספרייה)
                    (אני שופט לפי היסטוריית הפוסטים ש @אוריי מסתדר טוב ב-VBA אבל לא בקי בשפות ופלטפורמות אחרות)

                    📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                    OdedDvirO תגובה 1 תגובה אחרונה
                    4
                    • אורייא מנותק
                      אורייא מנותק
                      אוריי
                      כתב ב נערך לאחרונה על ידי אוריי
                      #16

                      ראשית כל ברצוני להודות לכל המשיבים שעמלו מזמנם היקר...
                      לסיכום:
                      מה שאני צריך לעשות כדי להגיע לתוצאה המיטבית זה כך:

                      1. ליצור רשימה של כל הסימנים שיש באקסל או באקסס (כולל גרשיים ומקפים לפי הצורך) א' ב' ג' ... י"א.. י"ב וכו' ולסדר את המילים הרעות כגון תרצ"ח וכו' (או גם וגם).
                      2. לעבור על הרשימה ולסמן אלו אופציות ודאי לא יכול להיות חוץ מסימנים.
                      3. לחפש את כל התוצאות שנשארו ולקבל אותם לתוך טבלה (אקסס או אקסל), עמודה ראשונה 3 מילים לפני, עמודה שניה התוצאה, עמודה שלישית 3 מילים אחרי.
                      4. לעבור על הרשימה ולסמן אלו תוצאות שיש לפניהם מילים שמכריחות סימן ואלו זה וודאי ר"ת בפני עצמם.
                      5. ואת כל השאר שנשארו ספק לסמן בסגנון נפרד ולעבור עליהם ידנית.

                      כעת עומדות לפני 2 שאלות:

                      1. האם לעשות את הטבלה באקסס או באקסל?
                      2. היות ויש לי עשרות קבצים כאלו (למעלה ממאה) האם לעשות קוד באקסס \ אקסל שיגש לקובץ וורד או ליצור קוד בוורד שיגש לdb שלו שזה אקסס \ אקסל.

                      ניתן לפנות אלי גם ב al0548446188@gmail.com
                      ותמיד... אבל תמיד תוכלו לשאול אותי ב :) כאן שאלות באקסל

                      תגובה 1 תגובה אחרונה
                      0
                      • OdedDvirO מנותק
                        OdedDvirO מנותק
                        OdedDvir
                        השיב לyossiz ב נערך לאחרונה על ידי
                        #17

                        @yossiz כתב בחלום \ אתגר | זיהוי ראשי תיבות של סימני מקורות בקבצי וורד:

                        ב-VBA אין מימוש של regex נורמלי, רק המוזרים של וורד.
                        (אולי אפשר לייבא ספרייה)

                        אפשרי בהחלט. שם הספריה:
                        Microsoft VBScript Regular Expressions

                        • אפשר להתקין בקישור מוקדם (Early Binding) מתפריט עורך ה-VBA:
                          Tools > References > Microsoft VBScript Regular Expressions
                          ולסמן V על הספריה הנ"ל, ואז להשתמש בקוד כך:
                        Dim RegExp As New RegExp
                        Function RemoveAllButNumbers(s As String) As String
                            With RegExp
                                .Pattern = "\D"
                                .Global = True
                                RemoveAllButNumbers = .Replace(s, "")
                            End With
                        End Function
                        
                        • או לקשר ישירות בקוד (Late Binding) כך:
                        Function RemoveAllButNumbers(s As String) As String
                            With CreateObject("VBScript.RegExp")
                                .Pattern = "\D"
                                .Global = True
                                RemoveAllButNumbers = .Replace(s, "")
                            End With
                        End Function
                        
                        yossizY תגובה 1 תגובה אחרונה
                        5
                        • Y.Excel.AccessY מנותק
                          Y.Excel.AccessY מנותק
                          Y.Excel.Access
                          כתב ב נערך לאחרונה על ידי
                          #18

                          עברתי קצת על הקובץ, וכן, אני לא רואה בקלות משהו אחיד לכל הראשי תיבות.
                          אבל אפשר כמובן להוציא מן הכלל הרבה עבודה לפני שמתחילים ידנית, וכמו שכתבת.
                          רק אוסיף עוד - צריך לבדוק גם אם יש לפני או אחרי מילת הראשי תיבות תווים. לדוגמא אם יש אח"כ נקודה, פסיק, או סגור סוגריים וכדו' וזו תהיה עוד אינדיקציה לעבוד איתה, ולא רק המילים עצמם שלפני ואחרי.

                          פיתחתי משהו דומה - תיקון והגהת טקסט, והלוגיקה דומה קצת. אבל לא מצאתי פתרון קסם...
                          להחלפות מסוג כזה הפתרון הכי טוב שלי היה להתנהל לפי כללים ברורים מראש בהקלדת החבורות בכל מה שאני ארצה לשנות.

                          בהצלחה!

                          Y.Excel.Access @ gmail.com

                          תגובה 1 תגובה אחרונה
                          0
                          • yossizY מנותק
                            yossizY מנותק
                            yossiz
                            השיב לOdedDvir ב נערך לאחרונה על ידי yossiz
                            #19

                            @OdedDvir האם אפשר בקלות להשתמש בספריה זו לחפש ולהחליף בתוך מסמך וורד?
                            לפום ריהטא זה עובד על מחרוזות ולא על מסמכים

                            📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                            OdedDvirO תגובה 1 תגובה אחרונה
                            0
                            • OdedDvirO מנותק
                              OdedDvirO מנותק
                              OdedDvir
                              השיב לyossiz ב נערך לאחרונה על ידי
                              #20

                              @yossiz אפשר לקבל את כל תוכן הטקסט של המסמך על ידי:

                              ActiveDocument.Content.Text
                              

                              אכן זה מוגבל ל 2,147,483,647 תוים לכל היותר, לפי הגדרת האובייקט String ב-VBA.

                              לשם קנה מידה, מדובר על כ-500 עמודים כתובים בכתב צפוף, ומכילים כ-350,000 מילים.

                              dovidD תגובה 1 תגובה אחרונה
                              4
                              • dovidD מנותק
                                dovidD מנותק
                                dovid ניהול
                                השיב לOdedDvir ב נערך לאחרונה על ידי
                                #21

                                חסר לי משהו, אולי זה כבר נאמר והחמצתי.
                                מה מטרת הניתוח?
                                מה יעשו עם התוצאות?

                                מנטור אישי למתכנתים (ולא רק) – להתקדם לשלב הבא!

                                בכל נושא אפשר ליצור קשר dovid@tchumim.com

                                תגובה 1 תגובה אחרונה
                                0
                                • yossizY yossiz התייחס לנושא זה ב

                                • 1
                                • 2
                                בא תתחבר לדף היומי!
                                • התחברות

                                • אין לך חשבון עדיין? הרשמה

                                • התחברו או הירשמו כדי לחפש.
                                • פוסט ראשון
                                  פוסט אחרון
                                0
                                • דף הבית
                                • קטגוריות
                                • פוסטים אחרונים
                                • משתמשים
                                • חיפוש
                                • חוקי הפורום