Парсер HTML файла - Форум на CrossPlatform.RU

Здравствуйте, гость ( Вход | Регистрация )

Форум на CrossPlatform.RU > Библиотеки > Qt > Qt Ввод/Вывод, Сеть. Межпроцессное взаимодействие

Парсер HTML файла

++Norton++ опции профиля: Просмотр профиля	21.11.2009, 1:02 Сообщение #1
Студент Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: 1	Есть куча файлов html. Из этих файлов ничего не надо, кроме того что стоит в тегах href с одинаково начинающимся адресом. Т.е. html документ имеет примерно такой вид: `<html><head></head><body> ..... ненужная часть ... <td> <a href="?php=text&randomText...">ТекстДляПарсинга</a> </td> <td align="left">1234</td> и т.д. (аналогичные ссылки и пр. теги)` Собственно нужно спарсить текст (хотя бы в QString) находящийся на месте "ТекстДляПарсинга" и то, что за ним, т.е. 1234. Подскажите, как это лучше всего будет сделать? Просто никогда раньше парсеры не приходилось писать. Заранее спасибо!

Ответов

++Norton++ опции профиля: Просмотр профиля	21.11.2009, 22:52 Сообщение #2
Студент Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: 1	Спасибо за советы! Вот, кстати, пример куска хтмл файла: <tbody> <tr class="thead" valign="bottom"> <td rowspan="1" width="80%">Text</td> <td align="right" width="20%">Some info:</td> </tr> <tr class="list" bgcolor="#ffffff"> <td> <a href="?cmd=words&page=1&inf=7423&secret=deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B8">текст1</a> </td> <td align="right">5701375</td> </tr> <tr class="list" bgcolor="#eeeeee"> <td> <a href="?cmd=words&page=1&inf=12704&secret=d115239573deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82">текст2</a> </td> <td align="right">5701027</td> </tr> <tr class="list" bgcolor="#ffffff"> <td> <a href="?cmd=words&page=1&inf=125704&secret=67c115239573deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D0%BF%D0%B5%D1%81%D0%BD%D0%B8">текст3</a> </td> <td align="right">2804612</td> </tr> <tr class="tlist" bgcolor="#eeeeee"> ........ Вот. Из такого кода нужно выдрать текст1, текст2, текст3 а также те числа, что идут после ссылки, т.е. в теге td align=right. Т.е. в данном примере после первой ссылки это 5701375, после второй 5701027, после третьей 2804612. Заранее еще раз спасибо!

Сообщений в этой теме

++Norton++ Парсер HTML файла 21.11.2009, 1:02

Litkevich Yuriy Цитата(++Norton++ @ 21.11... 21.11.2009, 1:06

++Norton++ Именно так, длинный HTML-документ с этими нужными ... 21.11.2009, 1:13

Litkevich Yuriy Есть Несколько технологий: SAX и DOM - руководство... 21.11.2009, 1:19

kwisp по-моему не получится потому что хмл очень тебоват... 21.11.2009, 1:39

lioncub kwisp, точно, все что меджду > < от body и н... 21.11.2009, 10:35

++Norton++ Спасибо, буду думать во всех направлениях, насчет ... 21.11.2009, 12:57

rcdimon ЦитатаСобственно нужно спарсить текст (хотя бы в Q... 21.11.2009, 13:58

kwisp Цитата(++Norton++ @ 21.11... 21.11.2009, 13:59

molchanoviv Цитата(kwisp @ 21.11.2009, 1:39) наверное... 21.11.2009, 19:06

++Norton++ Спасибо за советы! Вот, кстати, пример куска х... 21.11.2009, 22:52

++Norton++ Сделал регулярку, как посоветовал rcdimon. Получил... 29.11.2009, 14:16

trdm Блин, я где-то нарывался на html парсер на основе ... 29.11.2009, 20:10

« Предыдущая тема · Qt Ввод/Вывод, Сеть. Межпроцессное взаимодействие · Следующая тема »

Теги

Нет тегов для показа

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Текстовая версия

Сейчас: 29.7.2025, 1:56

Лицензия зарегистрирована на: CrossPlatform.RU