Ошибка JSoup.connect вызывает ошибку 403, в то время как apache.httpclient способен извлекать контент
Я пытаюсь разобрать HTML-дамп любой страницы. Я использовал HTML Parser, а также попытался JSoup для синтаксического анализа.
Я нашел полезные функции в Jsoup, но я получаю ошибку 403 при вызове Document doc = Jsoup.connect(url).get();
Я попробовал HTTPClient, чтобы получить html-дамп, и он был успешным для одного и того же URL-адреса.
Почему JSoup дает 403 для того же URL-адреса, который предоставляет контент из почтового клиента http?
Я делаю что-то неправильно? Любые мысли?
Ответы
Ответ 1
Рабочее решение выглядит следующим образом (спасибо Angelo Neuschitzer за то, что он напомнил, что это решение):
Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
String linkText = link.text();
System.out.println(linkText);
}
Итак, userAgent выполняет трюк:)