Ответ 1
Использование проекта Python Disco, например.
Хорошо. Играйте с этим.
Использование пакета RHIPE и поиск наборов игрушек и проблемных областей.
Fine. Играйте с этим тоже.
Не пот, находя "большие" наборы данных. Даже небольшие наборы данных представляют очень интересные проблемы. Действительно, любой набор данных является отправной точкой.
Я когда-то построил небольшую звездную схему для анализа бюджета организации на 60 миллионов долларов. Исходные данные были в электронных таблицах и, по сути, непонятны. Поэтому я выгрузил его в схему звезд и написал несколько аналитических программ на Python для создания упрощенных отчетов соответствующих номеров.
Поиск правильной информации, позволяющей мне решить, нужно ли мне переходить в NoSQL из баз данных типа РСУБД
Это легко.
Во-первых, возьмите книгу о хранилище данных (например, Ральф Кимбалл Инструментарий хранилищ данных).
Во-вторых, внимательно изучите "Звездную схему" - особенно все варианты и особые случаи, которые Кимбалл объясняет (углубленно)
В-третьих, поймите следующее: SQL для обновлений и транзакций.
При выполнении "аналитической" обработки (большой или малой) практически нет никакого обновления. SQL (и соответствующая нормализация) не имеют большого значения.
Точка Kimball (и другие тоже) заключается в том, что большая часть вашего хранилища данных находится не в SQL, а в простых плоских файлах. Массив данных (для ad-hoc, slice-and-dice analysis) может быть в реляционной базе данных, что позволяет легко и гибко обрабатывать SQL.
Таким образом, "решение" тривиально. Если он транзакционный ( "OLTP" ), он должен быть в реляционной или OO-базе данных. Если он аналитичен ( "OLAP" ), он не требует SQL, кроме аналитики slice-and-dice; и даже тогда DB загружается из официальных файлов по мере необходимости.