Triplestore для больших наборов данных

Я хочу спросить о хорошем трипестере, который будет использоваться для больших наборов данных, он должен:

Хорошо масштабировать (миллионы троек)
У вас есть интерфейс Java

Ответы

Ответ 1

Вам следует рассмотреть возможность использования магазина OpenLink Virtuoso. Он доступен через лицензию OpenSource и масштабируется до миллиардов троек. Вы можете использовать его через API Sesame и Jena.

См. здесь для обзора крупномасштабных трехлокальных магазинов. Virtuoso определенно проще настроить, чем BigData. Кроме того, я использовал сайт Sesame NativeStore, который не слишком хорошо масштабируется.

4Store также является хорошим выбором, хотя я его не использовал. Одним из преимуществ Virtuoso над 4Store является то, что вы можете легко смешивать стандартные реляционные модели с RDF, поскольку Virtuoso находится под капотом реляционной базы данных.

Ответ 2

4store: Масштабируемое хранилище RDF

Цитата 4store Web...

Основными сильными сторонами являются производительности, масштабируемости и стабильность. Он не обеспечивает много функции поверх хранилища RDF и SPARQL, но если вы ищет масштабируемую, безопасную, быструю и эффективный магазин RDF, затем 4store должен быть в вашем списке.

Лично я тестировал 4store с очень большими базами данных (до 2 миллиардов тройки) с очень хорошими результатами. 4store написан на C, работает на 64-битных платформах Linux/Unix, а текущая версия 1.1.1 частично реализовала SPARQL 1.1.

4store может быть развернут на кластере товарных серверов, что может повысить производительность ваших запросов, а пропускная способность подтверждения может достигать 100 KTriples/second. Но даже если вы используете его на одном сервере, вы получите довольно приличную производительность.

Здесь, в Саутгемптонском университете, наш выбор для очень больших наборов данных в исследовательских проектах, а также для нашей команды веб-мастеров см. Хранилища данных для Southampton и ECS Open Data.

Здесь у вас также есть список всех библиотек, которые вы можете использовать для запроса и администрирования 4store Клиентских библиотек. Кроме того, 4store IRC channel имеет активное сообщество пользователей, которое поможет, если вы столкнетесь с какими-либо проблемами.

Если вы являетесь пользователем Linux/Unix 4store, это, безусловно, хороший выбор.

Ответ 3

Я бы также рекомендовал 4store, но в духе полного раскрытия, я был ведущим архитектором:)

Если вы хотите воспользоваться стандартизацией хранилищ RDF, вам следует использовать библиотеку Java, которая реализует SPARQL, а не использовать тот, который изначально предоставляет JAVA API.

В противном случае вы могли бы оказаться застряли в любом магазине, который вы выбрали первым, из-за усилий по перемещению между ними, что является типичным аддитом миграции SQL.

Ответ 4

Я лично доволен GraphDB. Что хорошо работает на среднем оборудовании (сервер 256 ГБ RAM) с 15 миллиардами троек. Это доступно как через интерфейс кунжута, так и в jena. (Хотя jena - бета-версия).

Если вы можете себе это позволить, экземпляр Oracle 12c неплох. И может вписаться в существующую инфраструктуру оракула (резервные копии и т.д.).

Virtuoso 7.1 очень хорошо масштабируется и может обрабатывать огромные объемы данных по разумной цене. К сожалению, его соответствие стандартам SPARQL является пятнистым

Ответ 5

@Steve - не знаю, как комментировать, поэтому я думаю, что я сразу отвечу на два вопроса.

Драйвер JDBC для SPARQL ниже:

http://code.google.com/p/jdbc4sparql/

поддерживает протокол SPARQL и SPARUL (по протоколу SPARQL в качестве обновления, а не по протоколу SPARUL).

@myahya

4Store настоятельно рекомендуется, поэтому стоит оценить как кандидата.

Virtuoso также имеет встроенные драйверы JDBC и поддерживает большие наборы данных (до 12 миллиардов троек)

www.openlinksw.com/wiki/main/Main/

Кроме того, у Oracle есть что-то, но будьте готовы заплатить большие деньги:

http://www.oracle.com/technetwork/database/options/semantic-tech/index.html

Ответ 6

В дополнение к 4Store, Virtuoso и Owlim, Bigdata также стоит посмотреть.