Использование lxml для анализа помеченного HTML-кода?

Это сводит меня с ума, я боролся с ним много часов. Любая помощь приветствуется.

Я использую PyQuery 1.2.9 (который построен поверх lxml), чтобы очистить этот URL. Я просто хочу получить список всех ссылок в разделе .linkoutlist.

Это мой запрос полностью:

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

Но это возвращает пустой массив. Если я использую этот запрос вместо:

links = doc('#maincontent .linkoutlist')

Затем я возвращаю этот HTML-код:

<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher site" href="#" onclick="location.href='http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125'; return false;" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="#" onclick="location.href='http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui'; return false;" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

Поэтому родительские селекторы возвращают HTML с большим количеством тегов <a>. Это также выглядит корректным HTML.

Больше экспериментов показывает, что lxml не любит атрибут xmlns на открытии div, по какой-то причине.

Как я могу игнорировать это в lxml и просто анализировать его как обычный HTML?

ОБНОВЛЕНИЕ: попытка ns_clean, все еще не выполнена:

    parser = etree.XMLParser(ns_clean=True)
    tree = etree.parse(StringIO(response.content), parser)
    sel = CSSSelector('#maincontent .rprt_all a')
    print sel(tree)

Ответы

Ответ 1

Вам нужно описать пространства имен, включая пустую.

Рабочее решение:

from pyquery import PyQuery as pq
import requests


response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')

namespaces = {'xi': 'http://www.w3.org/2001/XInclude', 'test': 'http://www.w3.org/1999/xhtml'}
links = pq('#maincontent .linkoutlist test|a', response.content, namespaces=namespaces)
for link in links:
    print link.attrib.get("title", "No title")

Печать названий всех ссылок, соответствующих селектору:

Full text at publisher site
No title
Free resource
Free resource
Free resource
Free resource

Или просто установите parser в "html" и забудьте о пространствах имен:

links = pq('#maincontent .linkoutlist a', response.content, parser="html")
for link in links:
    print link.attrib.get("title", "No title")

Ответ 2

Удачи вам получить стандартный XML/DOM-анализ для работы с большинством HTML. Лучше всего использовать BeautifulSoup (pip install beautifulsoup4 или easy_install beautifulsoup4), который имеет большую обработку неправильных построенных структур. Может быть, что-то вроде этого?

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
bs = BeautifulSoup(response.content)
div = bs.find('div', class_='linkoutlist')
links = [ a['href'] for a in div.find_all('a') ]

>>> links
['http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&volume=19&issue=3&spage=125', 'http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=linkout&SEARCH=15107654.ui', 'https://www.researchgate.net/publication/e/pm/15107654?ln_t=p&ln_o=linkout', 'http://www.diseaseinfosearch.org/result/2199', 'http://www.nlm.nih.gov/medlineplus/antidepressants.html', 'http://toxnet.nlm.nih.gov/cgi-bin/sis/search/r?dbs+hsdb:@[email protected]+24219-97-4']

Я знаю, что это не библиотека, которую вы хотели использовать, но я исторически часто ударяю головой в стены, когда дело доходит до DOM. Создатели BeautifulSoup обошли множество краевых случаев, которые, как правило, происходят в дикой природе.

Ответ 3

Если я правильно помню, что у меня была аналогичная проблема. Вы можете "игнорировать" пространство имен, сопоставляя его с None следующим образом:

sel = CSSSelector('#maincontent .rprt_all a', namespaces={None: "http://www.w3.org/1999/xhtml"})