עזרה בREGEX

שואף

יש לי HTML שיש בו לינקים. יש שני סוגי לינקים. לינק שמציג טקסט (ובלחיצה על הטקסט פותח הלינק), ולינק שמציע הלינק עצמו.
אני רוצה למחוק מהטקסט כל הלינקים מהסוג השני.
עשיתי REGEX

#<a .*>http.*</a>#isU

וזה HTML לדוגמא

<body>
<a href="https://www.test.co.il">
text1
</a></td>
</tr>
</table>
</td>
</tr>
<tr>
<td
style="">
<a
href="https://www.test.co.il/"
style="">https://www.test.co.il/a.php</a></td>
</body>

אבל זה תופס מתחילת התגית a הראשונה עד סוף התגית האחרונה.
איפה טעיתי? ניסיתי עם פרמטרים שונים, בלי U, לא עזר כלום
תודה רבה

https://regexr.com/4qgth

אני מבין שלפי הכלל היבש, זה מתחיל לעבור על הטקסט, פוגש התגית a הראשונה, ממשיך עד שמוצא http, שזה רק בa השני.
אבל אני רוצה שזה יתפוס רק את האחרון. יש דרך לעשות את זה?

yossiz

<a[^>]*>http.*<\/a>

שואף

@yossiz אמר בעזרה בREGEX:

[^>]

אתה גאון!! לא חשבתי על זה.
אבל זה לא פיתרון נקי.. זה בעל'בתיש, אין צורה לכתוב את זה שלא יעשה את הבעייה?

yossiz

'א בעלבתישע גאון...'
האמת היא שלא כל כך הבנתי איפה הגאונות ואיפה הבעלבתישקייט...
טוב, לא משנה. נראה אם יש למישהו אחר פתרון למדני
(החוצניקים תמיד טוענים שהישראלים הם פחות למדנים... בא נראה)

dovid

@dovid אמר בRegex - ביטויים רגולריים:

הערה, יש מושג כימות עצלן: כל מצייני הכמות מנסים תמיד למצוא את המקסימום. למשל אם נחפש אלמנט HTML שזה בעצם טקסט מוקף זויות, אנו עשויים לחפש "<.+>" - משמעות: סוגריים זויתיות שביניהם 1 או יותר של תו כל שהוא. כעת אם יש כמה זוגות של כאלה בטקסט במקום למצוא כל אחד לעצמו הוא יתפוס מהראשון עד האחרון ברציפות! הנה דוגמה. זה התנהגות הברירת מחדל שנקראת חמדנית. ההיפך של זה נקרא התנהגות עצלנית והיא מושגת ע"י הוספת סימן שאלה אחרי מציין הכמות - הכוכבית או הפלוס, הנה דוגמא עובדת. המשמעות היא להעדיף את ההתאמה המינימלית.

כלומר ככה יעבוד:

<a .*?>.*?<\/a>

https://regexr.com/4qh0e

יש לציין שבPHP יש דגל של U לרג'קס, שמשמעותו Ungreedy - לא חמדן, אלא עצלן.
ואז אפשר להשתמש עם כוכבית לבד.

אגב לטעמי הפתרון של @yossiz מצויין.

dovid

אבל סתם ככה מאוד מעניין אותי מה המטרה כי ייתכן שעדיף לבצע את זה אחרת לגמרי.

יוסף בן שמעון

<a(.+?href="http).+?>.+?<\/a>

שואף

@dovid
להפוך HTML לטקסט, בלי לאבד שום טקסט מצד אחד, ומצד שני למחוק הלינקים

יוסף בן שמעון

מעניין למה האתר הוריד לי את הסלש?
<a(.+?href="http).+?>.+?</a>

WWW

@שואף אמר בעזרה בREGEX:

להפוך HTML לטקסט, בלי לאבד שום טקסט מצד אחד, ומצד שני למחוק הלינקים

אני אל מבין למה אתה לא משתמש עם הפונקציה הנורמלית של PHP להסרת תגים?
ואז תמחק כל URL עם REGEX סטנדרטי.

איש נחמד

@שואף אמר בעזרה בREGEX:

@yossiz אמר בעזרה בREGEX:

[^>]

אתה גאון!! לא חשבתי על זה.
אבל זה לא פיתרון נקי.. זה בעל'בתיש, אין צורה לכתוב את זה שלא יעשה את הבעייה?

זה גם מה שאני עשיתי בעבר, וזה הדבר היחיד שעזר לי בזמנו (אז הייתי צריך לחפש את ה-,'href' של הלינקים)

תחומים - פורום חרדי מקצועי

עזרה בREGEX