Ответ 1
Если вам нужен способ одновременной загрузки нескольких сайтов с помощью python, вы можете сделать это со стандартными библиотеками, такими как:
import threading
import urllib
maxthreads = 4
sites = ['google.com', 'yahoo.com', ] # etc.
class Download(threading.Thread):
def run (self):
global sites
while sites:
site = sites.pop()
print "start", site
urllib.urlretrieve('http://' + site, site)
print "end ", site
for x in xrange(min(maxthreads, len(sites))):
Download().start()
Вы также можете проверить httplib2
или PycURL
, чтобы выполнить загрузку вместо urllib
.
Я не совсем понимаю, как вы хотите, чтобы очищенный текст выглядел как xml, но вы могли бы использовать xml.etree.ElementTree
из стандартной библиотеки или вы могли бы установить BeautifulSoup
(что было бы лучше, поскольку он обрабатывал неверную разметку).