TagSoup против Jsoup против HTML Parser против HotSax vs
Обилие парсеров HTML на выбор (и придерживаться) - это умение:
http://java-source.net/open-source/html-parsers
Как выбрать тот, который наилучшим образом соответствует следующим требованиям:
- Зрелые (меньше ошибок, чем остальные)
- Живое и дыхание (т.е.
поддерживается)
- Быстрое и ресурсосберегающее
(предназначен для работы на Android)
Основываясь на своем опыте, какой HTML-парсер вы бы порекомендовали (для удовлетворения вышеуказанных требований) и почему?
Ответы
Ответ 1
Ну, я нашел ответ, который был @BalusC на в другом потоке:
- Если вы просто хотите использовать основанную на XML
инструмент для перемещения по нему: JTidy.
- Если вам нравится unit test HTML:
HtmlUnit
- Если вы хотите извлечь конкретные данные
из HTML: Jsoup
Спасибо @BalusC.