Как я могу прочитать содержимое URL-адреса с помощью Python?

Следующее работает, когда я вставляю его в браузер:

http://www.somesite.com/details.pl?urn=2344

Но когда я пытаюсь прочитать URL-адрес с Python, ничего не происходит:

 link = 'http://www.somesite.com/details.pl?urn=2344'
 f = urllib.urlopen(link)           
 myfile = f.readline()  
 print myfile

Нужно ли кодировать URL-адрес, или есть что-то, чего я не вижу?

Ответы

Ответ 1

Чтобы ответить на ваш вопрос:

import urllib

link = "http://www.somesite.com/details.pl?urn=2344"
f = urllib.urlopen(link)
myfile = f.read()
print(myfile)

Вы должны read(), а не readline()

РЕДАКТИРОВАТЬ (2018-06-25): Начиная с Python 3, устаревшая urllib.urlopen() была заменена на urllib.request.urlopen() (см. Примечания на https://docs.python.org/3/library/urllib. request.html # urllib.request.urlopen для подробной информации).

Если вы используете Python 3, посмотрите ответы Мартина Тома или INNM в этом вопросе: fooobar.com/questions/139857/... (Compath Python 2/3) fooobar.com/questions/139857/... (Python 3)

Или просто получите эту библиотеку здесь: http://docs.python-requests.org/en/latest/ и серьезно используйте ее :)

import requests

link = "http://www.somesite.com/details.pl?urn=2344"
f = requests.get(link)
print(f.text)

Ответ 2

Для пользователей python3, чтобы сэкономить время, используйте следующий код,

from urllib.request import urlopen

link = "https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html"

f = urlopen(link)
myfile = f.read()
print(myfile)

Я знаю, что существуют разные темы для ошибки: Name Error: urlopen is not defined, но думал, что это может сэкономить время.

Ответ 3

Решение с работами с Python 2.X и Python 3.X использует библиотеку совместимости Python 2 и 3 six:

from six.moves.urllib.request import urlopen
link = "http://www.somesite.com/details.pl?urn=2344"
response = urlopen(link)
content = response.read()
print(content)

Ответ 4

Ни один из этих ответов не очень хорош для Python 3 (проверено на последней версии на момент публикации).

Вот как ты это делаешь...

def print_some_url():
    with urllib.request.urlopen('http://mywebsiteurl') as f:
        print(f.read().decode('utf-8'))

Выше приведено для содержимого, которое возвращает 'utf-8'. Удалите .decode('utf-8'), если вы хотите, чтобы python "угадал подходящую кодировку".

Документация: https://docs.python.org/3/library/urllib.request.html#module-urllib.request

Ответ 5

URL-адрес должен быть строкой:

import urllib

link = "http://www.somesite.com/details.pl?urn=2344"
f = urllib.urlopen(link)           
myfile = f.readline()  
print myfile

Ответ 6

Я использовал следующий код:

import urllib

def read_text():
      quotes = urllib.urlopen("https://s3.amazonaws.com/udacity-hosted-downloads/ud036/movie_quotes.txt")
      contents_file = quotes.read()
      print contents_file

read_text()

Ответ 7

Мы можем прочитать содержание сайта HTML, как показано ниже:

from urllib.request import urlopen
response = urlopen('http://google.com/')
html = response.read()
print(html)

Ответ 8

#!/usr/bin/python
# -*- coding: utf-8 -*-
# Works on python 3 and python 2.
# when server knows where the request is coming from.

import sys

if sys.version_info[0] == 3:
    from urllib.request import urlopen
else:
    from urllib import urlopen
with urlopen('https://www.facebook.com/') as \
    url:
    data = url.read()

print data

# When the server does not know where the request is coming from.
# Works on python 3.

import urllib.request

user_agent = \
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'

url = 'https://www.facebook.com/'
headers = {'User-Agent': user_agent}

request = urllib.request.Request(url, None, headers)
response = urllib.request.urlopen(request)
data = response.read()
print data