Ответ 1
R хорошо подходит для больших наборов данных, либо используя готовые решения, например bigmemory
, либо ff package ( особенно read.csv.ffdf
) или обрабатывать ваши вещи в кусках, используя ваши собственные скрипты. Практически во всех случаях небольшое программирование делает обработку больших наборов данных ( → память, скажем, 100 Гб) очень возможной. Выполнение такого программирования самостоятельно занимает некоторое время, чтобы учиться (я не знаю вашего уровня), но делает вас действительно гибким. Если это ваша чашка чая или если вам нужно бежать, это зависит от времени, которое вы хотите инвестировать в изучение этих навыков. Но как только вы их получите, они значительно упростят вашу жизнь как аналитик данных.
Что касается анализа лог файлов, я знаю, что страницы статистики, созданные из Call of Duty 4 (компьютерная многопользовательская игра), работают путем анализа файла журнала итеративно в базе данных, а затем получения статистики по пользователю из базы данных. См. здесь для примера интерфейса. Итеративный (в кусках) подход означает, что размер файла журнала (почти) неограничен. Однако получение хорошей производительности не является тривиальным.
Много вещей, которые вы можете сделать в R, вы можете сделать в Python или Matlab, даже С++ или Fortran. Но только если у этого инструмента есть готовая поддержка того, что вы хотите, я мог бы видеть явное преимущество этого инструмента над R. Для обработки больших данных см. Просмотр задачи HPC. См. Также более ранний ответ min для чтения очень большого текстового файла в кусках. Другие связанные ссылки, которые могут быть вам интересны:
- Быстрое чтение очень больших таблиц как dataframes в R
- https://stackoverflow.com/info/1257021/suitable-functional-language-for-scientific-statistical-computing (обсуждение включает в себя использование для большой обработки данных).
- Обрезка огромного (3,5 ГБ) csv файла для чтения в R
- A сообщение в блоге, в котором показано, как оценивать использование RAM в наборе данных. Обратите внимание, что это предполагает, что данные будут храниться в матрице или массиве и всего один тип данных.
- Обработка файла журнала с помощью R
Что касается выбора R или какого-либо другого инструмента, я бы сказал, если он достаточно хорош для Google, это достаточно для меня;).