Ответ 1
рассмотрите обновленную статью biobucket-post:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
Я хотел бы извлечь первые 100 результатов (скажем) поиска Google Scholar, используя R. Кто-нибудь знает, как это сделать?
Чтобы быть точным, мне просто нужно имя газеты, авторов и цитаты.
Ps Это будет законно?
рассмотрите обновленную статью biobucket-post:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
Есть некоторые скребки Python и Perl, которые вы могли бы адаптировать, привязанные к http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html
Я не могу говорить о законности вашей задачи, но есть несколько способов, которыми вы можете это сделать. Хотя я не силен в XPath, это может быть лучший способ. Я считаю, что вы можете использовать пакет XML для извлечения содержимого страницы и использовать XPath для извлечения данных необходимых вам элементов.
Например, я использую Chrome для браузера, и когда я просматривал страницу с помощью инструментов разработчика, на странице появилась структура, в которой скрыты данные внутри различных тегов, которые вы можете использовать действительно легко используя XPath.
Посмотрите эту ссылку на примере использования XPath.
HTH и удача
Вы можете определенно получить HTML-содержимое страницы с помощью RCurl и проанализировать их с помощью RXML, как предложено Btibert3. Единственная проблема, с которой вы можете столкнуться, заключается в том, что Google не позволит вам делать запросы "роботизированным" способом. После чего-то вроде 200 запросов в Google за короткий промежуток времени он больше не будет возвращать результаты. Возможно, это отличается от Google Scholar, но я сомневаюсь в этом...
Недавно было опубликовано решение:
http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html