Как правильно разобрать HTML в кодировке UTF-8 в строки Unicode с помощью BeautifulSoup?

Я запускаю программу Python, которая извлекает веб-страницу с кодировкой UTF-8, и я извлекаю текст из HTML с помощью BeautifulSoup.

Однако, когда я пишу этот текст в файл (или печатаю его на консоли), он записывается в неожиданную кодировку.

Но я ожидал бы, что строка Unicode Python будет отображать ö в слове können как \xf6:

Я попытался передать параметр fromEncoding в BeautifulSoup и попытался read() и decode() объект response, но он не имеет никакого значения или вызывает ошибку.

С помощью команды curl www.voxnow.de | hexdump -C я вижу, что веб-страница действительно закодирована в кодировке UTF-8 (т.е. содержит 0xc3 0xb6) для символа ö:

Я не могу ограничивать свои возможности Python, поэтому я не понимаю, как отлаживать это дальше. Любые советы?

Ответы

Ответ 1

Как указано выше, мой вопрос здесь по существу является дубликатом этого вопроса.

Содержимое HTML сообщалось как кодированное UTF-8 и, по большей части, оно было, за исключением одного или двух недействительных недопустимых символов UTF-8.

Это, по-видимому, смущает BeautifulSoup о том, какая кодировка используется, и при попытке сначала декодировать как UTF-8 при передаче содержимого в BeautifulSoup, например это:

soup = BeautifulSoup(response.read().decode('utf-8'))

Я бы получил ошибку:

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 186812-186813: 
                    invalid continuation byte

Более внимательно рассмотрев вывод, был экземпляр символа Ü, который был неправильно закодирован как недопустимая последовательность байтов 0xe3 0x9c, а не правильный 0xc3 0x9c.

Как показывает текущий самый высокий рейтинг по этому вопросу, недопустимые символы UTF-8 могут быть удалены при разборе, так что только достоверные данные передаются в BeautifulSoup

soup = BeautifulSoup(response.read().decode('utf-8', 'ignore'))

Ответ 2

Кодирование результата до utf-8, похоже, работает для меня:

print (soup.find('div', id='navbutton_account')['title']).encode('utf-8')

Это дает:

Hier kÃ¶nnen Sie sich kostenlos registrieren und / oder einloggen!