BeautifulSoup: получить содержимое конкретной таблицы
Мой локальный аэропорт позорно блокирует пользователей без IE и выглядит ужасно. Я хочу написать скрипты на Python, которые будут каждые несколько минут получать содержимое страниц "Прибытие" и "Вылет" и показывать их более читабельно.
Мои инструменты выбора - механизировать, чтобы обманывать сайт, чтобы я считал, что я использую IE, и BeautifulSoup для анализа страницы, чтобы получить таблицу данных о рейсах.
Честно говоря, я заблудился в документации BeautifulSoup и не могу понять, как получить таблицу (название которой я знаю) из всего документа и как получить список строк из этой таблицы.
Есть идеи?
Ответы
Ответ 1
Это не тот код, который вам нужен, просто демонстрация того, как работать с BeautifulSoup. Он находит таблицу с идентификатором "Table1" и получает все ее элементы tr.
html = urllib2.urlopen(url).read()
bs = BeautifulSoup(html)
table = bs.find(lambda tag: tag.name=='table' and tag.has_attr('id') and tag['id']=="Table1")
rows = table.findAll(lambda tag: tag.name=='tr')
Ответ 2
soup = BeautifulSoup(HTML)
# the first argument to find tells it what tag to search for
# the second you can pass a dict of attr->value pairs to filter
# results that match the first tag
table = soup.find( "table", {"title":"TheTitle"} )
rows=list()
for row in table.findAll("tr"):
rows.append(row)
# now rows contains each tr in the table (as a BeautifulSoup object)
# and you can search them to pull out the times
Ответ 3
Вот рабочий пример для универсального <table>
. (Хотя вы не используете вашу страницу из-за выполнения JavaScript, необходимого для загрузки данных таблицы)
Извлечение данных таблицы из здесь ВВП (валового внутреннего продукта) по странам.
table = soup.find('table', { 'class' : 'table table-striped' })
# where the dictionary specify unique attributes for the 'table' tag
Ниже основная функция tableDataText
анализирует html-сегмент, начинающийся с тега <table>
, за которым следуют несколько тегов <tr>
(строки таблицы) и внутренних тегов <td>
(данные таблицы). Возвращает список строк с внутренними столбцами. Принимает только один <th>
(заголовок таблицы/данные) в первой строке.
def rowgetDataText(tr, coltag='td'): # td (data) or th (header)
cols = []
for td in tr.find_all(coltag):
cols.append(td.get_text(strip=True))
return cols
def tableDataText(table):
rows = []
trs = table.find_all('tr')
headerow = rowgetDataText(trs[0], 'th')
if headerow: # if there is a header row include first
rows.append(headerow)
trs = trs[1:]
for tr in trs: # for every table row
rows.append(rowgetDataText(tr, 'td')) # data row
return rows
Используя его, мы получаем (первые две строки).
list_table = tableDataText(htmltable)
list_table[:2]
[['Rank',
'Name',
"GDP (IMF '19)",
"GDP (UN '16)",
'GDP Per Capita',
'2019 Population'],
['1',
'United States',
'21.41 trillion',
'18.62 trillion',
'$65,064',
'329,064,917']]
Это можно легко преобразовать в pandas.DataFrame
для более сложных манипуляций.
import pandas as pd
dftable = pd.DataFrame(list_table[1:], columns=list_table[0])
dftable.head(4)
![enter image description here]()
Ответ 4
Просто, если вам все равно, BeautifulSoup больше не поддерживается, и первоначальный сопровождающий предлагает переход к lxml. Xpath должен делать трюк только красиво.