Какие базы данных занимаются крупнейшими сайтами Всемирной паутины?
Этот вопрос предназначен для того, чтобы служить в качестве списка баз данных и их конфигураций, которые используют основные веб-сайты, и будет отличной ссылкой для тех, кто думает о масштабировании своего веб-сайта до размера Twitter, Facebook или даже Google.
Пожалуйста, держите свои ответы до минимума и не забудьте указать любые используемые источники.
EDIT:
Кроме того, пожалуйста, жирный и имя веб-сайта, и базу данных для упрощения сканирования.
Ответы
Ответ 1
Facebook.com
- MySQL с MyRocks. Используется для хранения информации о пользователях и социальных действиях, таких как лайки, комментарии и публикации.
- Hive (Хранилище данных для Hadoop, поддерживает таблицы и вариант SQL, называемый hiveQL). Используется для "простых заданий суммирования, бизнес-аналитики, машинного обучения и многих других приложений"
- Cassandra (многомерное распределенное хранилище значений ключей). В настоящее время используется для личных сообщений Facebook.
В настоящее время работает 610 (скоро будет 1000) узлов Hadoop в одном кластере с хранилищем данных Hive. И Hive, и Cassandra были открыты из Facebook.
Статистика Facebook:
- Более 200 миллионов активных пользователей
- Более 100 миллионов пользователей заходят в Facebook хотя бы раз в день
- Более 30 миллионов пользователей обновляют свои статусы хотя бы раз в день
- Средний пользователь имеет 120 друзей на сайте
Источники:
Ответ 2
Переполнение стека - SQL Server.
Джефф Этвуд написал хороший блог на этом
https://blog.stackoverflow.com/2008/09/what-was-stack-overflow-built-with/
Ответ 3
LinkedIn.com
- Oracle (реляционная база данных)
- MySQL (реляционная база данных)
Базы данных, реплицированные на нескольких серверах для обеспечения высокой доступности. Каждая конкретная Служба использует свою собственную специфичную для домена БД.
Статистика LinkedIn:
- 22 миллиона участников.
- 4+ миллионов уникальных посетителей/месяц
- 40 миллионов просмотров страниц в день
- 2 миллиона запросов/день
Источники:
Ответ 4
Flickr использует MySQL.
YouTube использует MySQL, но они переходят в Google BigTable.
Myspace использует SQL Server.
Википедия использует MySQL.
Ответ 5
Microsoft.com
- SQL Server (там нет ничего удивительного)
Статистика Microsoft.com:
- 250 миллионов уникальных посещений/месяц.
- 70 миллионов просмотров страниц в день.
- 15 000 соединений в секунду.
- Поддерживает в среднем 35 000 одновременных подключений к 80 веб-серверам.
Источники:
Ответ 6
Yahoo.com
- PostgreSQL (изменено). Клиент может подключиться к любому из узлов в кластере (или подмножеству, ограниченному политикой). Запрос отправляется от клиента к серверу, к которому он решил подключиться. Компилятор SQL на этом node компилирует и оптимизирует запрос для этого единственного node (no parallelism).
Статистика Yahoo.com:
- 24 миллиарда событий в день
- 2-петабайт, претендует на самую большую базу данных (март 2008 г.)
Источник:
Ответ 7
Twitter.com
- MySQL (реляционная база данных).
- Cassandra (многомерный, распределенный хранилище ключей). Twitter просто "начинает использовать Cassandra в Twitter" (см. Второй источник).
В мае 2008 года Twitter имел 1 экземпляр MySQL для записи с несколькими экземплярами ведомого MySQL для чтения.
Статистика в Twitter:
- Всего пользователей: 1+ миллионов
- Всего активных пользователей: 200 000 в неделю
- Всего сообщений в Twitter: 3 миллиона в день
- 5% пользователей Twitter составляют 75% всей активности.
- 72,5% всех пользователей, присоединившихся в течение первых пяти месяцев 2009 года.
Источники:
Ответ 8
Digg
- MySQL (реляционная база данных) для масштабирования операций чтения
- MemcacheDB (Key-Value Store) для масштабирования записей
Оба хранилища данных распределены по нескольким серверам.
Статистика Digg:
- 30 миллионов пользователей
- 26 миллионов уникальных вещей в месяц
- 2 миллиарда запросов в месяц
- 13 000 запросов в секунду, пик на 27 000 запросов в секунду.
Источники:
Ответ 9
Google использует BigTable: http://research.google.com/archive/bigtable.html
Ответ 10
PlentyOfFish.com с использованием Microsoft SQL Server:
https://blog.codinghorror.com/scaling-up-vs-scaling-out-hidden-costs/