Ответ 1
Эти вопросы очень полезны при работе с веб-соскабливанием и XML в R:
- Скремблировать html-таблицы в R-фреймы данных с помощью пакета XML
- Как преобразовать данные XML в файл data.frame?
Что касается вашего конкретного примера, в то время как я не уверен, что вы хотите, чтобы результат выглядел, это получает "забитые цели" в качестве символьного вектора:
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
fifa.doc <- htmlParse(theURL)
fifa <- xpathSApply(fifa.doc, "//*/div[@class='cont']", xmlValue)
goals.scored <- grep("Goals scored", fifa, value=TRUE)
Функция xpathSApply
получает все значения, соответствующие заданным критериям, и возвращает их как вектор. Обратите внимание, как я ищу div с class= 'cont'. Использование значений классов часто является хорошим способом анализа HTML-документа, поскольку они являются хорошими маркерами.
Вы можете очистить это, но хотите:
> gsub("Goals scored", "", strsplit(goals.scored, ", ")[[1]])
[1] "Philipp LAHM (GER) 6'" "Paulo WANCHOPE (CRC) 12'" "Miroslav KLOSE (GER) 17'" "Miroslav KLOSE (GER) 61'" "Paulo WANCHOPE (CRC) 73'"
[6] "Torsten FRINGS (GER) 87'"