Почему Netflix Prize настолько сложна?
Просто прочитав недавнюю статью в Wired, мне любопытно: что это за Prix Netflix, что так сложно? Я имею в виду это самым искренним образом, мне просто интересно узнать о трудностях, связанных с конкурсом. Могут ли большинство двигателей с рекомендациями улучшить это? Если да, то почему? Или, Netflix необычно сложно улучшить, и если это так, то что особенного в Netflix, что делает это намного сложнее, чем, скажем, Amazon?
Ответы
Ответ 1
Потому что у NetFlix уже есть действительно хороший механизм рекомендаций. Если бы они знали, как легко ее улучшить, они бы сделали это к настоящему времени. Вся их бизнес-модель связана с перекрестными продажами продуктов (фильмов) для потребителей. Алгоритм рекомендаций - это, по сути, суть их бизнеса. Чем лучше это работает, тем больше денег они должны сделать.
Ответ 2
Системы рекомендаций страдают от проблем, которые трудно исправить:
- Холодный старт - В новой системе или с новым пользователем данных недостаточно для создания точной статистической модели для рекомендации.
- Оценка смещения - Если вы основываете рекомендации по рейтингам пользователей, пользователи, которые часто оценивают результаты по своему вкусу. Если вы являетесь типом человека, которому не нравится дополнительный шаг рейтинга, люди с подобным вкусом не любят рейтинг, поэтому их мнение исключается из рекомендаций.
- Пункты, которые не оценены, с меньшей вероятностью будут оценены - если вы выберете и, следовательно, оцените, предметы, основанные на их рейтингах, предметы, которые не оценены, менее заметны, и им будет трудно получить оценки, которые им нужны влияют на рекомендации. В другом направлении популярные предметы имеют большую наглядность, чаще оцениваются и, следовательно, играют большую роль в рекомендациях.
- Временное смещение - Оценки пользователей меняются со временем. При долгосрочных изменениях вы можете компенсировать добавление элемента времени к своим рекомендациям. Краткосрочные изменения сложнее исправить. После марафона Chuck Norris вы можете с большей вероятностью дать боевикам высокие оценки. На следующий день, после того, как вы плачете ваши глаза на Steel Magnolias, вы можете временно пристраститься к боевикам.
- Разнообразные мотивы - в на основе рекомендаций, рекомендуемые системы, вязальная книга, которую вы купили для дня рождения тети, будет искажать ваши рекомендации (если вы наденете" t потратить время, чтобы сообщить системе, чтобы не использовать его). Вы можете дать фильму плохих детей высокий рейтинг, потому что вашим детям понравилось.
Все вместе, это улучшает системы рекомендаций, которые улучшают прошлое. Система с 80% -ой точностью кажется отличной, но неправильной 1 из 5 раз. Это делает их более трудными, чем для некоторых пользователей.
Ответ 3
Я думаю, что на это были написаны статьи, но я не знаю, где они сейчас, поэтому я просто объясню это здесь.
Когда люди покупают Amazon для книг (например), они склонны покупать книги определенного типа, поэтому можно легко предложить другие книги того же типа.
В фильмах люди могут делать то же самое, однако люди обычно не ограничиваются одним жанром. Люди могут смотреть гораздо более широкий спектр фильмов: ужасы, комедии, экшн, романтика и т.д.
Предсказание того, что вам нравится в этих жанрах, может быть трудно предсказать, если вы только арендовали один фильм до сих пор, и этот фильм - драма.
Если кто-то придумал очень умный механизм рекомендаций, Netflix мог бы извлечь из этого феноменально. Я думаю, что они в основном ищут двигатель, который может рекомендовать вещи на основе только одного или двух фильмов. Новые клиенты, которые мало что знают о Netflix, имеют больше шансов застрять, если они найдут фильмы, которые им нравятся на ранней стадии, без поиска их.
По-моему, у них уже есть механизм рекомендаций наравне с Amazon. Я думаю, что они хотят улучшить его дальше.
Ответ 4
В этом участвовали я и мой коллега. У меня нет сильного AI-фона, но для двигателей с рекомендациями требуется некоторое глубокое знание существующих литературных алгоритмов, таких как выборка Gibbs, метод K, ближайший сосед и т.д. Мы использовали выборку Gibbs, и могу сказать, что мы сосали:) по сравнению с тем, что Netflix уже имеет.