Как скручивать или wget веб-страницу?
Я хотел бы сделать ночное задание cron, которое извлекает мою страницу stackoverflow и отличает ее от предыдущей страницы, поэтому я могу увидеть сводку изменений моих вопросов, ответов, ранжирования и т.д.
К сожалению, я не мог получить правильный набор файлов cookie и т.д., чтобы сделать эту работу. Любые идеи?
Кроме того, когда бета закончена, будет ли доступна моя страница статуса без входа?
Ответы
Ответ 1
Теперь ваша страница статуса доступна без входа в систему (нажмите logout и попробуйте). Когда бета-cookie отключен, между вами и вашей статусной страницей ничего не будет.
Для wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Ответ 2
От Марк Харрисон
И вот что работает...
curl -s --cookie soba =. https://stackoverflow.com/users
И для wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Ответ 3
Хорошая идея:)
Я предполагаю, что вы использовали wget
--load-cookies (filename)
может помочь немного, но может быть проще использовать что-то вроде Mechanize (в Perl или python), чтобы более полно имитировать браузер, чтобы получить хорошего паука.
Ответ 4
Я не мог понять, как заставить файлы cookie работать, но мне удалось попасть на мою страницу статуса в моем браузере, когда я вышел из системы, поэтому я предполагаю, что это будет работать, когда stackoverflow станет общедоступным.
Это интересная идея, но разве вы не сможете получить разницу в базовом html-коде? У вас есть стратегия, позволяющая избежать разграничения html, а не фактического контента?
Ответ 5
И вот что работает...
curl -s --cookie soba=. http://stackoverflow.com/users