![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
Гость_Krakozabra_* |
![]()
Сообщение
#1
|
Гости ![]() |
Привет. Есть задача в обработке текста, точнее html кода. Все работает за исключением выбора текста между кавычками.
Цитата m = re.findall('href=".*\"', ht) print m[0] Первое вхождение срабатывает на ура, второе с примесью текста, третье вхождение также проходит хорошо, каждое последующее с примесями. Подскажите, как должна выглядеть эта регулярка, я уже голову сломал. Всем спасибо. |
|
|
ahalaj |
![]()
Сообщение
#2
|
![]() Студент ![]() Группа: Участник Сообщений: 47 Регистрация: 14.6.2014 Пользователь №: 4166 Спасибо сказали: 13 раз(а) Репутация: ![]() ![]() ![]() |
Привет. Есть задача в обработке текста, точнее html кода. Все работает за исключением выбора текста между кавычками. Цитата m = re.findall('href=".*\"', ht) print m[0] Первое вхождение срабатывает на ура, второе с примесью текста, третье вхождение также проходит хорошо, каждое последующее с примесями. Подскажите, как должна выглядеть эта регулярка, я уже голову сломал. Всем спасибо. Искать надо от открывающей кавычки до закрывающей и чтобы внутри кавычек не было. Вот это сработает:
|
|
|
lanz |
![]()
Сообщение
#3
|
![]() Старейший участник ![]() ![]() ![]() ![]() Группа: Участник Сообщений: 690 Регистрация: 28.12.2012 Пользователь №: 3660 Спасибо сказали: 113 раз(а) Репутация: ![]() ![]() ![]() |
Не используйте регулярные выражения для парсинга html.
http://stackoverflow.com/questions/6751105...planation-in-la Серьезно, используйте BeautifulSoup например или любой другой готовый парсер. http://www.crummy.com/software/BeautifulSoup/ |
|
|
![]() ![]() ![]() |
![]() |
Текстовая версия | Сейчас: 16.2.2025, 16:02 |