Каким образом можно получать удовольствие от большого количества данных? (т.е. API Twitter, del.icio.us и т.д.)

Twitter, Google, Amazon, del.icio.us и т.д. все дают вам массу данных для игры, все бесплатно. Там также много текстовых данных, доступных через такие инициативы, как Project Gutenberg. И это, кажется, только верхушка айсберга.

Мне было интересно, как вы можете использовать эти данные для развлечения. Я студент-студент первого курса, поэтому я не знаю статистических данных, машинного обучения, совместной фильтрации и т.д. Мой интерес к этой области был вызван книгой "Коллективный анализ интеллекта" Тоби Сегараном, и теперь я хочу взглянуть глубже что вы можете делать с данными. Я не знаю, с чего начать. Любые идеи?

Я также размышлял, должен ли я пойти и купить что-то вроде Парадигмы программирования искусственного интеллекта. Стоит ли путешествовать по городу?

Ответы

Ответ 1

Попробуйте уволить книги в разных стилях из Гуттенберга с помощью генератора Марковской цепи - там, в Perl здесь, чтобы вы начали.

Ответ 2

Визуализации, делать их, делиться ими.

Ответ 3

Вы можете использовать некоторые из этих данных, чтобы заработать деньги (если вы действительно хороши!) http://www.netflixprize.com/ Netflix предоставил анонимный набор данных и просит улучшить алгоритмы для прогнозирования выбора клиента.

Ответ 4

Если вы знакомы с Python, попробуйте сыграть с nltk. Он имеет множество библиотек для интеллектуального анализа текста и даже машинного обучения в целом. Попробуйте выполнить свой путь через nltk book.

Ответ 5

Если вы хотите начать с легкой проблемы с AI, вы можете попробовать кластеризацию.

http://en.wikipedia.org/wiki/Data_clustering

Вы можете использовать его для группировки изображений flickr вместе с помощью тега или чего-то вроде этого.

Ответ 6

Вы можете создавать головоломки, как игры в палач. Или mashup или попробуйте трубки Yahoo, чтобы присоединиться к информации.

Ответ 7

Предсказывать будущие тенденции фондового рынка по данным. Прибыль!