crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )

 
Ответить в данную темуНачать новую тему
> Регулярное выражение от <form...> до первого </form>, не могу составить
ViGOur
  опции профиля:
сообщение 13.8.2008, 16:26
Сообщение #1


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Есть HTML документ, в нем есть две формы (form). Мне нужно получить все, что внутри первого form, пишу выражение:
<form[^>]+>([^<>]*)</form>
но почему-то получаю данные до второго </form>, а не до первого.
Как нужно составить регулярное выражение, чтобы получить данные только из первой формы.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Andrew Selivanov
  опции профиля:
сообщение 13.8.2008, 23:09
Сообщение #2


Участник
**

Группа: Участник
Сообщений: 249
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 3

Спасибо сказали: 15 раз(а)




Репутация:   6  


На Perl-e это делается так...
$test =~ m/<form>(.+?)<\/form>/;
print "$1\n";
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Tonal
  опции профиля:
сообщение 14.8.2008, 8:06
Сообщение #3


Активный участник
***

Группа: Участник
Сообщений: 452
Регистрация: 6.12.2007
Из: Новосибирск
Пользователь №: 34

Спасибо сказали: 69 раз(а)




Репутация:   17  


Цитата(ViGOur @ 13.8.2008, 20:26) *
<form[^>]+>([^<>]*)</form>
но почему-то получаю данные до второго </form>, а не до первого.

Поставь ? после *
Это сделает повторитель "не жадным".
"Жадный" повторитель захватывает сразу всё сколько может, а потом отдаёт если остаток выражения не совпадает.
"Нежадный" наоборот, после захвата минимально возможного количества символов, отдаёт управление дальше, и если совпадений там нет, кушает следующий доступный. :)

P.S. Кстати, изменение не проканают - у тебя между тегами form стоит ([^<>]*) - т.е. взять любую последовательность символов в которой не встречаются символы <> - т.е. при встрече первого же тега (а это скорее всего будет не </form> оно остановиться. И выражение обломается.
Так что тебе нужно его заменить (как правильно написал Andrew Selivanov) на такое: (.+?)

Сообщение отредактировал Tonal - 14.8.2008, 8:17
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 14.8.2008, 8:58
Сообщение #4


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Понял, я только начинаю вникать в регулярные выражения.

Но в Qt'шной тулзе RegExp выражения (.+?) и (.*?) не работают. :(
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Tonal
  опции профиля:
сообщение 14.8.2008, 12:01
Сообщение #5


Активный участник
***

Группа: Участник
Сообщений: 452
Регистрация: 6.12.2007
Из: Новосибирск
Пользователь №: 34

Спасибо сказали: 69 раз(а)




Репутация:   17  


Там нужно 2 вариант синтаксиса включить: QRegExp::RegExp2
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 14.8.2008, 12:10
Сообщение #6


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Неа, не идет, вот пример:
    QString szBody = "<form[^>]+>(.+?)</form>";
    // ...
    QString sz;
    QRegExp rx( szBody, Qt::CaseInsensitive, QRegExp::RegExp2);
    int pos = rx.indexIn( szData);
    if (pos > -1)
    {
        sz = rx.cap( 1);
    }
В szData прочитанный HTML документ.

Да и тулза не съедает тоже. :(

Сообщение отредактировал ViGOur - 14.8.2008, 12:10
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Litkevich Yuriy
  опции профиля:
сообщение 14.8.2008, 12:18
Сообщение #7


разработчик РЭА
*******

Группа: Сомодератор
Сообщений: 9669
Регистрация: 9.1.2008
Из: Тюмень
Пользователь №: 64

Спасибо сказали: 807 раз(а)




Репутация:   94  


ViGOur, а если вместо
(.+?)
так
({.+}?)
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 14.8.2008, 12:24
Сообщение #8


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Тоже самое, сам глянь с помощью утилиты RegExp, которая находится в %qtdir%\examples\tools\regexp
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Tonal
  опции профиля:
сообщение 18.8.2008, 8:36
Сообщение #9


Активный участник
***

Группа: Участник
Сообщений: 452
Регистрация: 6.12.2007
Из: Новосибирск
Пользователь №: 34

Спасибо сказали: 69 раз(а)




Репутация:   17  


Ага, проверил. Qt действительно не понимает конструкций +?, *? и ?? но при переключении во второй синтаксис все квантификаторы делаются "нежадными".
Т.е. работает <form[^>]+>(.+)</form> + QRegExp::RegExp2.
+ setMinimal

Сообщение отредактировал Tonal - 18.8.2008, 8:41
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 18.8.2008, 10:30
Сообщение #10


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Угу, заработало! Спасибо. :)
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение

Быстрый ответОтветить в данную темуНачать новую тему
Теги
Нет тегов для показа


3 чел. читают эту тему (гостей: 3, скрытых пользователей: 0)
Пользователей: 0




RSS Текстовая версия Сейчас: 28.11.2024, 17:17