דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
  1. דף הבית
  2. תוכנה
  3. שליפת כל המשפטים בעברית מתוך קובץ PHP

שליפת כל המשפטים בעברית מתוך קובץ PHP

מתוזמן נעוץ נעול הועבר תוכנה
28 פוסטים 6 כותבים 708 צפיות 4 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • yossizY yossiz

    @nigun
    regex?

    nigunN מנותק
    nigunN מנותק
    nigun
    כתב ב נערך לאחרונה על ידי
    #3

    @yossiz
    מצאתי סקריפט בPHP ששולף את כל המילים בעברית אבל
    א) אני רוצה שזה יחלק למשפטים
    ב) איך אני מכניס לתוכו טקסט שהוא בעצם סקריפט של PHP
    זה הסקריפט שלי

    <?php
    $input = "גככדגכfgfdgfdsgכגעיכדיעכ";
    preg_match_all( "/[\\x{0590}-\\x{05FF}]+/u", $input, $matches );
    
    echo '<pre>';
    print_r( $matches );
    echo '</pre>';
    ?>
    

    מייל: nigun@duck.com

    yossizY תגובה 1 תגובה אחרונה
    0
    • nigunN nigun

      @yossiz
      מצאתי סקריפט בPHP ששולף את כל המילים בעברית אבל
      א) אני רוצה שזה יחלק למשפטים
      ב) איך אני מכניס לתוכו טקסט שהוא בעצם סקריפט של PHP
      זה הסקריפט שלי

      <?php
      $input = "גככדגכfgfdgfdsgכגעיכדיעכ";
      preg_match_all( "/[\\x{0590}-\\x{05FF}]+/u", $input, $matches );
      
      echo '<pre>';
      print_r( $matches );
      echo '</pre>';
      ?>
      
      yossizY מנותק
      yossizY מנותק
      yossiz
      כתב ב נערך לאחרונה על ידי
      #4

      @nigun לא הבנתי למה אתה עובד עם סקריפטים
      כל עורך טקסט ממוצע ומעלה אמור להצליח במשימה

      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

      nigunN תגובה 1 תגובה אחרונה
      2
      • yossizY yossiz

        @nigun לא הבנתי למה אתה עובד עם סקריפטים
        כל עורך טקסט ממוצע ומעלה אמור להצליח במשימה

        nigunN מנותק
        nigunN מנותק
        nigun
        כתב ב נערך לאחרונה על ידי
        #5

        @yossiz
        אני מנסה לכתוב בnotepad++

        /[\\x{0590}-\\x{05FF}]+/u
        

        וזה לא עובד

        מייל: nigun@duck.com

        מ תגובה 1 תגובה אחרונה
        0
        • מ מנותק
          מ מנותק
          משחזר מידע
          כתב ב נערך לאחרונה על ידי משחזר מידע
          #6

          למה אתה מתחיל מ 0x0590 עד 0x05FF ?
          יוניקוד אלפא בית מתחיל מ 0x05D0 ועד 0x05EA

          nigunN תגובה 1 תגובה אחרונה
          2
          • מ משחזר מידע

            למה אתה מתחיל מ 0x0590 עד 0x05FF ?
            יוניקוד אלפא בית מתחיל מ 0x05D0 ועד 0x05EA

            nigunN מנותק
            nigunN מנותק
            nigun
            כתב ב נערך לאחרונה על ידי
            #7

            @משחזר-מידע
            כי זה הקוד שראיתי בstackoverflow

            מייל: nigun@duck.com

            מ 2 תגובות תגובה אחרונה
            0
            • nigunN nigun

              @משחזר-מידע
              כי זה הקוד שראיתי בstackoverflow

              מ מנותק
              מ מנותק
              משחזר מידע
              כתב ב נערך לאחרונה על ידי משחזר מידע
              #8

              @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

              כי זה הקוד שראיתי בstackoverflow

              אוקיי נניח (בכלל מאתיים, מנה) מ 0590 ועד 05D0 זה סימנים
              https://en.wikipedia.org/wiki/Unicode_and_HTML_for_the_Hebrew_alphabet

              תגובה 1 תגובה אחרונה
              0
              • nigunN nigun

                @yossiz
                אני מנסה לכתוב בnotepad++

                /[\\x{0590}-\\x{05FF}]+/u
                

                וזה לא עובד

                מ מנותק
                מ מנותק
                משחזר מידע
                כתב ב נערך לאחרונה על ידי משחזר מידע
                #9

                @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                אני מנסה לכתוב בnotepad++

                אולי notepad++ עובד על ascii (?!) (או HEX)

                nigunN תגובה 1 תגובה אחרונה
                0
                • מ משחזר מידע

                  @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                  אני מנסה לכתוב בnotepad++

                  אולי notepad++ עובד על ascii (?!) (או HEX)

                  nigunN מנותק
                  nigunN מנותק
                  nigun
                  כתב ב נערך לאחרונה על ידי
                  #10

                  @משחזר-מידע
                  גם בויזואל סטודיו זה לא מוצא כלום

                  מייל: nigun@duck.com

                  תגובה 1 תגובה אחרונה
                  0
                  • מ מנותק
                    מ מנותק
                    משחזר מידע
                    כתב ב נערך לאחרונה על ידי
                    #11

                    לך על HEX
                    הכי פשוט

                    תגובה 1 תגובה אחרונה
                    0
                    • nigunN nigun

                      @משחזר-מידע
                      כי זה הקוד שראיתי בstackoverflow

                      מ מנותק
                      מ מנותק
                      משחזר מידע
                      כתב ב נערך לאחרונה על ידי משחזר מידע
                      #12

                      @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                      כי זה הקוד שראיתי בstackoverflow

                      תעלה ת'לינק לשמה

                      תגובה 1 תגובה אחרונה
                      0
                      • yossizY מנותק
                        yossizY מנותק
                        yossiz
                        כתב ב נערך לאחרונה על ידי yossiz
                        #13

                        @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                        אני מנסה לכתוב בnotepad++
                        /[\x{0590}-\x{05FF}]+/u

                        וזה לא עובד

                        כי זה לא regex תקין. (ה-/ בהתחלה וסוף הוא לא חלק משפת regex אלא שפת PHP, הכפילות של ה-\\ גם נצרך רק ב-PHP, ה-u בסוף הוא דגל שגם לא חלק מה-regex)
                        זה 👇 תקין, אם כי יכול להיות שזה לא יעשה בדיוק מה שאתה רוצה...

                        [\x{0590}-\x{05FF} ]+
                        

                        📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                        nigunN תגובה 1 תגובה אחרונה
                        4
                        • dovidD מנותק
                          dovidD מנותק
                          dovid
                          ניהול
                          כתב ב נערך לאחרונה על ידי dovid
                          #14

                          אפשר לכתוב א-ת בלי להבין הרבה באקסדצימלית, ושים לב לסמן למטה Regular Expression
                          5883c119-c53a-424e-9894-267b926a8ad9-image.png

                          • מנטור אישי בתכנות והמסתעף – להתקדם לשלב הבא!
                          • בכל נושא אפשר ליצור קשר dovid@tchumim.com
                          תגובה 1 תגובה אחרונה
                          4
                          • yossizY yossiz

                            @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                            אני מנסה לכתוב בnotepad++
                            /[\x{0590}-\x{05FF}]+/u

                            וזה לא עובד

                            כי זה לא regex תקין. (ה-/ בהתחלה וסוף הוא לא חלק משפת regex אלא שפת PHP, הכפילות של ה-\\ גם נצרך רק ב-PHP, ה-u בסוף הוא דגל שגם לא חלק מה-regex)
                            זה 👇 תקין, אם כי יכול להיות שזה לא יעשה בדיוק מה שאתה רוצה...

                            [\x{0590}-\x{05FF} ]+
                            
                            nigunN מנותק
                            nigunN מנותק
                            nigun
                            כתב ב נערך לאחרונה על ידי nigun
                            #15

                            @yossiz אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:
                            עושה בדיוק מה שאני רוצה
                            (דהיינו מוצא משפטים שלמים)
                            אבל אני רוצה משהו כמו סקריפט שיוציא לי באופן מסודר את הכל
                            ניסיתי לכתוב משהו בפייתון אבל הסתבכתי עם הקידוד
                            האם זה הכיוון?

                            import re
                            
                            string = unicode('אבגד', 'utf-8')
                            pattern = '[\x{0590}-\x{05FF} ]+'
                            result = re.findall(pattern, string) 
                            
                            print(result)
                            

                            מייל: nigun@duck.com

                            תגובה 1 תגובה אחרונה
                            0
                            • yossizY מנותק
                              yossizY מנותק
                              yossiz
                              כתב ב נערך לאחרונה על ידי yossiz
                              #16

                              @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                              עושה בדיוק מה שאני רוצה

                              מקווה שזה נכון למרות שלא נראה לי...
                              לדוגמה:
                              dcf333a6-23a0-43ce-980f-9ceb3fb68c97-image.png

                              אבל אני רוצה משהו כמו סקריפט שיוציא לי באופן מסודר את הכל

                              עדיין אין צורך בסקריפט, אפשר ב-vscode כך:

                              • ctrl+f [א-ת ]+
                              • ctrl+shift+l (בוחר כל המופעים)
                              • ctrl+c
                              • ctrl+n
                              • ctrl+v

                              ניסיתי לכתוב משהו בפייתון אבל הסתבכתי עם הקידוד

                              import re
                               
                              string = u'\u05d0\u05d1\u05d2\u05d3 abc \u05d4\u05d5\u05d6\u05d7' # 'אבגד abc הוזח'
                              pattern = u'[\u05d0-\u05ea ]+' # '[א-ת ]+'
                              result = re.findall(pattern, string) 
                               
                              print(result)
                              

                              📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                              nigunN תגובה 1 תגובה אחרונה
                              1
                              • yossizY yossiz

                                @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                                עושה בדיוק מה שאני רוצה

                                מקווה שזה נכון למרות שלא נראה לי...
                                לדוגמה:
                                dcf333a6-23a0-43ce-980f-9ceb3fb68c97-image.png

                                אבל אני רוצה משהו כמו סקריפט שיוציא לי באופן מסודר את הכל

                                עדיין אין צורך בסקריפט, אפשר ב-vscode כך:

                                • ctrl+f [א-ת ]+
                                • ctrl+shift+l (בוחר כל המופעים)
                                • ctrl+c
                                • ctrl+n
                                • ctrl+v

                                ניסיתי לכתוב משהו בפייתון אבל הסתבכתי עם הקידוד

                                import re
                                 
                                string = u'\u05d0\u05d1\u05d2\u05d3 abc \u05d4\u05d5\u05d6\u05d7' # 'אבגד abc הוזח'
                                pattern = u'[\u05d0-\u05ea ]+' # '[א-ת ]+'
                                result = re.findall(pattern, string) 
                                 
                                print(result)
                                
                                nigunN מנותק
                                nigunN מנותק
                                nigun
                                כתב ב נערך לאחרונה על ידי nigun
                                #17

                                @yossiz
                                מצויין
                                עכשיו איך אני מסנן את כל הרווחים שהם לא בין מילים בעברית
                                עריכה: שמתי הכל באקסל ומיינתי מהגדול לקטן
                                אבל אולי יש דרך יותר חכמה

                                מייל: nigun@duck.com

                                yossizY תגובה 1 תגובה אחרונה
                                0
                                • nigunN nigun

                                  @yossiz
                                  מצויין
                                  עכשיו איך אני מסנן את כל הרווחים שהם לא בין מילים בעברית
                                  עריכה: שמתי הכל באקסל ומיינתי מהגדול לקטן
                                  אבל אולי יש דרך יותר חכמה

                                  yossizY מנותק
                                  yossizY מנותק
                                  yossiz
                                  כתב ב נערך לאחרונה על ידי
                                  #18

                                  @nigun האם המחרוזות ממוסגרות על ידי גרש או גרשיים?
                                  אם כן, חפש:

                                  [\'\"].*[א-ת].*[\'\"]
                                  

                                  📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                  nigunN תגובה 1 תגובה אחרונה
                                  2
                                  • yossizY yossiz

                                    @nigun האם המחרוזות ממוסגרות על ידי גרש או גרשיים?
                                    אם כן, חפש:

                                    [\'\"].*[א-ת].*[\'\"]
                                    
                                    nigunN מנותק
                                    nigunN מנותק
                                    nigun
                                    כתב ב נערך לאחרונה על ידי
                                    #19

                                    @yossiz
                                    אני רואה שזה נושא ששווה ללמוד קצת יותר לעומק
                                    מצאתי את זה
                                    האם אתה ממליץ על זה או שעדיף להתחיל עם משהו יותר פשוט?

                                    מייל: nigun@duck.com

                                    yossizY תגובה 1 תגובה אחרונה
                                    0
                                    • nigunN nigun

                                      @yossiz
                                      אני רואה שזה נושא ששווה ללמוד קצת יותר לעומק
                                      מצאתי את זה
                                      האם אתה ממליץ על זה או שעדיף להתחיל עם משהו יותר פשוט?

                                      yossizY מנותק
                                      yossizY מנותק
                                      yossiz
                                      כתב ב נערך לאחרונה על ידי yossiz
                                      #20

                                      @nigun אם אתה לא מכיר את הנושא ודאי שווה ללמוד אותו

                                      דרך אגב, ה-regex שכתבתי למעלה לא טוב 😞 (כי הוא "רעבתני" מדי...)
                                      ניסיתי כך:

                                      ['"].*?[א-ת].*?['"]
                                      

                                      ועדיין לא עובד. אני לא מבין למה.
                                      ה-? אמור למגר את ה"רעבתנות". אבל הוא לא...
                                      bc151a88-623d-45cb-a372-956ac7319cce-image.png
                                      אולי @dovid יכול לשפוך אור על הנושא.
                                      עריכה: הבנתי למה לא עובד. אבל עדיין לא יודע איך כן אפשר לכתוב אותו
                                      עריכה2: זה עובד:

                                      ['"][^"']*[א-ת][^"']*['"]
                                      

                                      למעשה זה עדיין נכשל במקרים מסויימים אבל נראה לי שלטפל בזה מגרד את גבולות היכולת של regex-ים.

                                      @nigun אמר בשליפת כל השפטים בעברית מתוך קובץ PHP:

                                      או שעדיף להתחיל עם משהו יותר פשוט

                                      לא נראה לי, זה לא נושא כל כך ענקי.

                                      כאן יש אתר כיפי להתאמן

                                      📧 יוסי@מייל.קום | 🌎 בלוג | ☕ קפה

                                      nigunN תגובה 1 תגובה אחרונה
                                      2
                                      • שואףש מנותק
                                        שואףש מנותק
                                        שואף
                                        כתב ב נערך לאחרונה על ידי
                                        #21

                                        בדיוק לפני שבוע בניתי פונקציה (אסטריסק) שתשלוף את כל המשפטים בעברית, ושלוחה להקלטת כל המשפטים האלה לקריינות אנושית.
                                        מכיוון שהיו גם טקסטים בעברית שלא צריכים קריינות (לדוגמא טקסט שנשלח במייל), אז ההגדרה היא שמה שמוקף במרכאות נקלט, ומה שבמרכאות כפולות לא.

                                        		preg_match_all("#'(\p{Hebrew}.*)'#uisU", file_get_contents($script), $m);
                                        

                                        ליצירת קשר: admin@i-call.me

                                        הידד! גישה למייל גם בלי מחשב ואינטרנט!

                                        תגובה 1 תגובה אחרונה
                                        2
                                        • dovidD מנותק
                                          dovidD מנותק
                                          dovid
                                          ניהול
                                          כתב ב נערך לאחרונה על ידי
                                          #22
                                          ["']([,.:?א-ת]+\s*)*["']
                                          
                                          • מנטור אישי בתכנות והמסתעף – להתקדם לשלב הבא!
                                          • בכל נושא אפשר ליצור קשר dovid@tchumim.com
                                          תגובה 1 תגובה אחרונה
                                          0
                                          תגובה
                                          • תגובה כנושא
                                          התחברו כדי לפרסם תגובה
                                          • מהישן לחדש
                                          • מהחדש לישן
                                          • הכי הרבה הצבעות


                                          • 1
                                          • 2
                                          בא תתחבר לדף היומי!
                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • דף הבית
                                          • קטגוריות
                                          • פוסטים אחרונים
                                          • משתמשים
                                          • חיפוש
                                          • חוקי הפורום