crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )

 
Ответить в данную темуНачать новую тему
> Разбор трехэтажных вложенных тегов, <ol> <li>..., Регулярные выражения
ViGOur
  опции профиля:
сообщение 16.10.2008, 12:28
Сообщение #1


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Есть такие данные:
<ol>
   <li>text1</li>
</ol>
<ol>
   <li>text2</li>
   <ol>
      <li>text3</li>
   </ol>
   <li>text4</li>
</ol>
<ol>
   <li>text5</li>
</ol>
Как с помощью регулярного выражения правильно разобрать (получить то, что внутри) <ol> хотя бы первого уровня?

Сообщение отредактировал ViGOur - 16.10.2008, 12:35
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Litkevich Yuriy
  опции профиля:
сообщение 16.10.2008, 12:56
Сообщение #2


разработчик РЭА
*******

Группа: Сомодератор
Сообщений: 9669
Регистрация: 9.1.2008
Из: Тюмень
Пользователь №: 64

Спасибо сказали: 807 раз(а)




Репутация:   94  


ViGOur, может лучше DOM вместо регулярок?
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 16.10.2008, 13:02
Сообщение #3


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Я уже думал об этом, но практика показывает, что HTML документ не всегда правильно составлен в отличии от XML. :(
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Litkevich Yuriy
  опции профиля:
сообщение 16.10.2008, 13:11
Сообщение #4


разработчик РЭА
*******

Группа: Сомодератор
Сообщений: 9669
Регистрация: 9.1.2008
Из: Тюмень
Пользователь №: 64

Спасибо сказали: 807 раз(а)




Репутация:   94  


Цитата(ViGOur @ 16.10.2008, 17:02) *
что HTML документ не всегда правильно составлен
а вчем суть ошибок? если напутано с тэгами, я думаю регулярку тоже замучаешся составлять.

можно еще SAX'ом обходить тэги, но там ручная работа прибавится.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Tonal
  опции профиля:
сообщение 16.10.2008, 13:34
Сообщение #5


Активный участник
***

Группа: Участник
Сообщений: 452
Регистрация: 6.12.2007
Из: Новосибирск
Пользователь №: 34

Спасибо сказали: 69 раз(а)




Репутация:   17  


Регулярки не работают со структурами произвольной вложенности.
Я с таким SAX-ом работал.
Если есть уверенность, что вложенность всегда меньше некоторого числа, то регулярку можно построить. Этом описано у Фридла в "Регулярных выражениях".
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
ViGOur
  опции профиля:
сообщение 16.10.2008, 13:56
Сообщение #6


Мастер
******

Группа: Модератор
Сообщений: 3296
Регистрация: 9.10.2007
Из: Москва
Пользователь №: 4

Спасибо сказали: 231 раз(а)




Репутация:   40  


Цитата(Litkevich Yuriy @ 16.10.2008, 14:11) *
а вчем суть ошибок? если напутано с тэгами, я думаю регулярку тоже замучаешся составлять.
Я уже понял, что проще написать свой парсер, чем и занялся уже... :)
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение

Быстрый ответОтветить в данную темуНачать новую тему
Теги
Нет тегов для показа


1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0




RSS Текстовая версия Сейчас: 28.12.2024, 11:56