Ошибка JSoup.connect вызывает ошибку 403, в то время как apache.httpclient способен извлекать контент

Я пытаюсь разобрать HTML-дамп любой страницы. Я использовал HTML Parser, а также попытался JSoup для синтаксического анализа.

Я нашел полезные функции в Jsoup, но я получаю ошибку 403 при вызове Document doc = Jsoup.connect(url).get();

Я попробовал HTTPClient, чтобы получить html-дамп, и он был успешным для одного и того же URL-адреса.

Почему JSoup дает 403 для того же URL-адреса, который предоставляет контент из почтового клиента http? Я делаю что-то неправильно? Любые мысли?

Ответы

Ответ 1

Рабочее решение выглядит следующим образом (спасибо Angelo Neuschitzer за то, что он напомнил, что это решение):

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

Итак, userAgent выполняет трюк:)