Triplestore для больших наборов данных
Я хочу спросить о хорошем трипестере, который будет использоваться для больших наборов данных, он должен:
- Хорошо масштабировать (миллионы троек)
- У вас есть интерфейс Java
Ответы
Ответ 1
Вам следует рассмотреть возможность использования магазина OpenLink Virtuoso. Он доступен через лицензию OpenSource и масштабируется до миллиардов троек. Вы можете использовать его через API Sesame и Jena.
См. здесь для обзора крупномасштабных трехлокальных магазинов. Virtuoso определенно проще настроить, чем BigData. Кроме того, я использовал сайт Sesame NativeStore, который не слишком хорошо масштабируется.
4Store также является хорошим выбором, хотя я его не использовал. Одним из преимуществ Virtuoso над 4Store является то, что вы можете легко смешивать стандартные реляционные модели с RDF, поскольку Virtuoso находится под капотом реляционной базы данных.
Ответ 2
4store: Масштабируемое хранилище RDF
Цитата 4store Web...
Основными сильными сторонами являются производительности, масштабируемости и стабильность. Он не обеспечивает много функции поверх хранилища RDF и SPARQL, но если вы ищет масштабируемую, безопасную, быструю и эффективный магазин RDF, затем 4store должен быть в вашем списке.
Лично я тестировал 4store с очень большими базами данных (до 2 миллиардов тройки) с очень хорошими результатами. 4store написан на C, работает на 64-битных платформах Linux/Unix, а текущая версия 1.1.1 частично реализовала SPARQL 1.1.
4store может быть развернут на кластере товарных серверов, что может повысить производительность ваших запросов, а пропускная способность подтверждения может достигать 100 KTriples/second. Но даже если вы используете его на одном сервере, вы получите довольно приличную производительность.
Здесь, в Саутгемптонском университете, наш выбор для очень больших наборов данных в исследовательских проектах, а также для нашей команды веб-мастеров см. Хранилища данных для Southampton и ECS Open Data.
Здесь у вас также есть список всех библиотек, которые вы можете использовать для запроса и администрирования 4store Клиентских библиотек. Кроме того, 4store IRC channel имеет активное сообщество пользователей, которое поможет, если вы столкнетесь с какими-либо проблемами.
Если вы являетесь пользователем Linux/Unix 4store, это, безусловно, хороший выбор.
Ответ 3
Я бы также рекомендовал 4store, но в духе полного раскрытия, я был ведущим архитектором:)
Если вы хотите воспользоваться стандартизацией хранилищ RDF, вам следует использовать библиотеку Java, которая реализует SPARQL, а не использовать тот, который изначально предоставляет JAVA API.
В противном случае вы могли бы оказаться застряли в любом магазине, который вы выбрали первым, из-за усилий по перемещению между ними, что является типичным аддитом миграции SQL.
Ответ 4
Я лично доволен GraphDB. Что хорошо работает на среднем оборудовании (сервер 256 ГБ RAM) с 15 миллиардами троек. Это доступно как через интерфейс кунжута, так и в jena. (Хотя jena - бета-версия).
Если вы можете себе это позволить, экземпляр Oracle 12c неплох. И может вписаться в существующую инфраструктуру оракула (резервные копии и т.д.).
Virtuoso 7.1 очень хорошо масштабируется и может обрабатывать огромные объемы данных по разумной цене. К сожалению, его соответствие стандартам SPARQL является пятнистым
Ответ 5
@Steve - не знаю, как комментировать, поэтому я думаю, что я сразу отвечу на два вопроса.
Драйвер JDBC для SPARQL ниже:
http://code.google.com/p/jdbc4sparql/
поддерживает протокол SPARQL и SPARUL (по протоколу SPARQL в качестве обновления, а не по протоколу SPARUL).
@myahya
4Store настоятельно рекомендуется, поэтому стоит оценить как кандидата.
Virtuoso также имеет встроенные драйверы JDBC и поддерживает большие наборы данных (до 12 миллиардов троек)
www.openlinksw.com/wiki/main/Main/
Кроме того, у Oracle есть что-то, но будьте готовы заплатить большие деньги:
http://www.oracle.com/technetwork/database/options/semantic-tech/index.html
Ответ 6
В дополнение к 4Store, Virtuoso и Owlim, Bigdata также стоит посмотреть.