Непосредственный способ сохранить источник веб-страницы

Я прочитал много ответов о веб-соскабливании, которые говорят о BeautifulSoup, Scrapy e.t.c. для выполнения веб-очистки.

Есть ли способ сделать эквивалент сохранения источника страницы из веб-браузера?

То есть, есть ли способ в Python указать его на веб-сайте и заставить его сохранить исходный текст страницы в текстовый файл только с помощью стандартных модулей Python?

Вот где я добрался:

import urllib

f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")

#somehow save the web page source

f.close()

Не так много, я знаю - но ищу код, чтобы на самом деле вытащить источник страницы, чтобы я мог его написать. Я понимаю, что urlopen просто устанавливает соединение.

Возможно, существует эквивалент readlines() для строк чтения веб-страницы?

Ответы

Ответ 1

Вы можете попробовать urllib2:

import urllib2

page = urllib2.urlopen('http://stackoverflow.com')

page_content = page.read()

with open('page_content.html', 'w') as fid:
    fid.write(page_content)