Отмена неверного HTML-кода с помощью регулярных выражений

Question

Отмена неверного HTML-кода с помощью регулярных выражений

544

Peter Hofman 2014-06-24 в 10:53

Мне нужно регулярное выражение pcre, которое выберет все теги html img без src части. Длинная история. С помощью я получил, (?-s)<img(?!.*?src).*?\/>который работал нормально, пока строка не получила второй тег img WITH src part. Регулярное выражение сопоставило первое <imgс последним />:(

Как я могу выбрать плохую часть <img border="0" />из:

<p align="center"><img border="0" /> <a href="http://www.megaevent2014.com/enllac/"><img alt src="http://www.megaevent2014.com/banner/gran/" /></a></p>

В одном регулярном выражении.

И теги img могут быть недействительными по многим причинам. Выделение "границы" не помогает. Мне нужно выбрать теги без src, не заботясь ни о чем другом.

Пожалуйста, совет, С уважением, Питер

0

Смотрите этот ответ на stackoverflow! http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 Lord Peter 10 лет назад 0

@LordPeter Правда, это не может быть выполнено отказоустойчивым способом. Но в определенных ограниченных контекстах это может работать. LatinSuD 10 лет назад 0

1 ответ на вопрос

0

Accepted Answer · 2014-07-11 17:46:40

Следующий шаблон регулярных выражений работает для меня и должен быть правильно сформирован для регулярных выражений PCRE:

<img(\s*(?!src)([\w\-])+=([\"\'])[^\"\']+\3)*\s*\/?>

Чтобы разбить его, вы начинаете с литерала <img, а затем \s*сопоставляете любой символ пробела [\r\n\t\f ]ноль или неограниченное количество раз.
(?!src)Является отрицательным опережением, который гарантирует, что строка srcявляется НЕ совпадает.
Вторая группа захвата ([\w\-])+ищет любой из [a-zA-Z0-9_]одного и неограниченного количества раз и является жадным (найдите его столько раз, сколько возможно), и \-это литерал, ищущий дефис, если он существует где-то в <img>паре тегов.
Это =буквальный поиск знака равенства.
Третья группа захвата ([\"\'])[^\"\']+\3ищет совпадения с одинарной или двойной кавычкой, затем что угодно, НО одинарная или двойная кавычка (один или несколько раз), а затем \3совпадает с тем, что было найдено в качестве третьей группы захвата (с одинарной или двойной кавычкой). .)
Наконец, \s*совпадает с любым символом пробела [\r\n\t\f ]ноль или неограниченное количество раз, \/?прямая косая черта совпадает ровно один раз, и >это заключительная скобка всего дела.

Регекс это весело. :-)

Отмена неверного HTML-кода с помощью регулярных выражений

1 ответ на вопрос

Похожие вопросы