Загрузить ссылку для набора данных для бакалеи Та Фэн
Я отчаянно пытаюсь загрузить набор данных бакалеи Та-Фэн в течение нескольких дней, но кажется, что все ссылки сломаны. Мне нужно было для исследования интеллектуального анализа данных/машинного обучения для моей тезисов msc. У меня также есть база данных продуктов Microsoft, бельгийский магазин и Supermarket.arff от Weka. Однако в исследовании они говорят, что Та Фэн является крупнейшим и наиболее интересным из всех доступных для общественности наборов данных.
http://recsyswiki.com/wiki/Grocery_shopping_datasets
Я буду супер благодарен за любую помощь:) Приветствия!
Ответы
Ответ 1
Человек, который голосовал, не понимает трудности с поиском этой ценной информации для машинного обучения, связанной с сценариями супермаркетов. Это самый большой общедоступный набор данных, содержащий 4 месяца торговых операций в супермаркете Та-Фэн. Я получил его от профессора Чун Нана, который был очень добр, чтобы отправить его мне, потому что серверы его предыдущего института на Тайване больше не поддерживали его. Вот ссылка для всех, кому это нужно: https://sites.google.com/site/dataminingcourse2009/spring2016/annoucement2016/assignment3/D11-02.ZIP
Ответ 2
Если кто-либо, кто использует этот набор данных "Ta Feng", столкнутся с серьезной проблемой, когда дело касается имен столбцов. Поэтому я решил поделиться этим. Надеюсь, это очень помогло бы кому-то.
Он содержит эти файлы
D11: данные транзакций, собранные в ноябре 2000 года
D12: Данные транзакции, собранные в декабре 2000 года
D01: данные транзакции, собранные в январе 2001 года
D02: данные транзакций, собранные в феврале 2001 года
Формат данных транзакции
Первая строка: определение столбцов на традиционном китайском языке
Вторая строка и остальные: столбцы данных, разделенные символом ";"
Определение столбца
Дата и время транзакции (время недействительно и бесполезно)
Идентификатор клиента
Возраст: 10 возможных значений,
A < 25, B 25-29, C 30-34, D 35-39, E 40-44, F 45-49, G 50-54, H 55-59, я 60-64, J > 65
Площадь резиденции: 8 возможных значений, A-F: область zipcode: 105,106,110,114,115,221, G: другие, H: Неизвестно Расстояние хранения, от ближайшего: 115,221,114,105,106,110
Подкласс продукта
Идентификатор продукта
Сумма
активы
Цена продажи
Ответ 3
Ссылка на Dropbox кажется сломанной. Вы можете загрузить набор данных по следующей ссылке:
https://sites.google.com/site/dataminingcourse2009/spring2016/annoucement2016/assignment3/D11-02.ZIP