Ответ 1
Вы можете попробовать urllib2
:
import urllib2
page = urllib2.urlopen('http://stackoverflow.com')
page_content = page.read()
with open('page_content.html', 'w') as fid:
fid.write(page_content)
Я прочитал много ответов о веб-соскабливании, которые говорят о BeautifulSoup, Scrapy e.t.c. для выполнения веб-очистки.
Есть ли способ сделать эквивалент сохранения источника страницы из веб-браузера?
То есть, есть ли способ в Python указать его на веб-сайте и заставить его сохранить исходный текст страницы в текстовый файл только с помощью стандартных модулей Python?
Вот где я добрался:
import urllib
f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")
#somehow save the web page source
f.close()
Не так много, я знаю - но ищу код, чтобы на самом деле вытащить источник страницы, чтобы я мог его написать. Я понимаю, что urlopen просто устанавливает соединение.
Возможно, существует эквивалент readlines() для строк чтения веб-страницы?
Вы можете попробовать urllib2
:
import urllib2
page = urllib2.urlopen('http://stackoverflow.com')
page_content = page.read()
with open('page_content.html', 'w') as fid:
fid.write(page_content)