Как загрузить результаты поиска у google ученого, используя r?

Я хотел бы извлечь первые 100 результатов (скажем) поиска Google Scholar, используя R. Кто-нибудь знает, как это сделать?

Чтобы быть точным, мне просто нужно имя газеты, авторов и цитаты.

Ps Это будет законно?

Ответы

Ответ 1

рассмотрите обновленную статью biobucket-post:

http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html

Ответ 2

Есть некоторые скребки Python и Perl, которые вы могли бы адаптировать, привязанные к http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html

Ответ 3

Я не могу говорить о законности вашей задачи, но есть несколько способов, которыми вы можете это сделать. Хотя я не силен в XPath, это может быть лучший способ. Я считаю, что вы можете использовать пакет XML для извлечения содержимого страницы и использовать XPath для извлечения данных необходимых вам элементов.

Например, я использую Chrome для браузера, и когда я просматривал страницу с помощью инструментов разработчика, на странице появилась структура, в которой скрыты данные внутри различных тегов, которые вы можете использовать действительно легко используя XPath.

Посмотрите эту ссылку на примере использования XPath.

HTH и удача

Ответ 4

Вы можете определенно получить HTML-содержимое страницы с помощью RCurl и проанализировать их с помощью RXML, как предложено Btibert3. Единственная проблема, с которой вы можете столкнуться, заключается в том, что Google не позволит вам делать запросы "роботизированным" способом. После чего-то вроде 200 запросов в Google за короткий промежуток времени он больше не будет возвращать результаты. Возможно, это отличается от Google Scholar, но я сомневаюсь в этом...

Ответ 5

Недавно было опубликовано решение:

http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html