Твиттер (Social networking) Dataset

Я ищу твиттер или другие сайты социальных сетей для моего проекта. В настоящее время у меня есть набор данных CAW 2.0 twitter, но он содержит только твиты пользователей. Мне нужны данные, показывающие количество друзей, последователей и т.д.

Это не должно быть твиттер, но я бы предпочел твиттер или facebook. Я уже пробовал infochimps, но, видимо, файл больше не загружается для twitter.

Может кто-нибудь дать мне хорошие сайты для поиска такого набора данных. Я собираюсь накормить набор данных в hadoop.

Ответы

Ответ 1

Попробуйте выполнить следующие три набора данных:

Содержит около 97 миллионных твитов:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

примечание: ранее установленный набор данных больше не доступен из-за запроса из Twitter, чтобы удалить его.

Содержит пользовательский график из 47 миллионов пользователей:

http://an.kaist.ac.kr/traces/WWW2010.html

В следующем наборе данных содержатся сетевые и твиты, однако данные были собраны сэмплированием снегом или что-то, поэтому сеть друзей неоднородна. У него около 10 миллионов твитов, которые вы можете отправить исследователю за еще большим количеством данных.

http://www.public.asu.edu/~mdechoud/datasets.html

Хотя взгляните на лицензию, данные распространяются под.

Надеюсь, это поможет, Также вы можете сказать мне, какие работы планируются с помощью этого набора данных? У меня есть несколько сценариев hadoop/pig для использования с набором данных

Ответ 2

Из facebook было извлечено 100 миллионов страниц: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

Я не знаю, что они содержат, но вы могли бы посмотреть, кажется, легко найти на сайтах торрентов.

Вы также можете использовать API facebook, но если вы хотите, чтобы набор данных был достаточно большим, вам нужно было бы задать facebook права доступа к нему. Он содержит ссылки на друзей, любит, группы,...

Ответ 3

Социальный график Facebook, приложения и пользователи Last.fm, события, группы, собранные исследователями в UCIrvine: http://odysseas.calit2.uci.edu/research/

Ответ 4

Я считаю, что лучшим инструментом сбора данных twitter является http://www.followthehashtag.com, он может получать исторические или будущие данные и расширенные функции экспорта данных

В разделе, где мы добавляем большие наборы данных (около 200 000 твитов) один раз в неделю

http://followthehashtag.com/datasets/

Ответ 5

Если вы технически здоровы, вы можете извлечь данные непосредственно из Twitter. Twitter REST API предоставляет данные за два дня после твиттера.

Вы можете искать популярные ключевые слова, такие как "Trump" и т.д., и можете получать миллионы твитов в течение 7 дней.

Если вы не знаете, как извлечь данные из twitter api, тогда есть много сторонних инструментов, которые могут вам помочь. Я рекомендую вам использовать ExportTweet для экспорта данных твиттера, метаданных, подписчиков и т.д.