Быстрая проверка, если набор - это супермножество сохраненных наборов

Мне даны N массивов булевых C. Я хочу организовать их в структуру данных, которая позволяет мне выполнить следующую операцию как можно быстрее. Учитывая новый массив, верните true, если этот массив является "надмножеством" любого из хранимых массивов. С надмножеством я имею в виду это: A - это надмножество B, если A [i] истинно для каждого i, где B [i] истинно. Если B [i] неверно, то A [i] может быть любым.

Храните N наборов (каждый с C возможными элементами) в структуру данных, чтобы вы могли быстро найти, если данный набор является надмножеством любого из сохраненных наборов.

Построение структуры данных может занять как можно дольше, но поиск должен быть максимально эффективным, а структура данных не может занимать слишком много места.

Некоторый контекст

Я думаю, что это интересная проблема сама по себе, но для того, что я действительно пытаюсь решить, вы можете предположить следующее:

То, что я придумал до сих пор

Я надеюсь, что между этим решением O (N * C) и O (C) может быть решение O (log (N) * C), которое не требует экспоненциального объема пространства.

EDIT: новая идея, которую я придумал

Я попробую и эту новую идею, и метод BDD, и посмотрю, какая из двух из них лучше всего подходит.

Но пока эта проблема чаще возникает? Разве это не имя? Не было ли ранее проведенных исследований? Мне действительно кажется, что я изобретаю колесо здесь.

Ответы

Ответ 1

Чтобы добавить некоторую справочную информацию в префиксное решение trie, я недавно нашел следующую статью:

I.Savnik: структура данных индексов для быстрых подмножеств и надстрочных запросов. CD-ARES, IFIP LNCS, 2013.

В документе предлагается структура данных (контейнер) set-trie, которая обеспечивает поддержку эффективного хранения и запросов наборов множеств с использованием структуры trie datastrong > , поддерживая операции, такие как поиск всех надмножеств/подмножеств заданное множество из набора множеств.

Для любого python пользователя, заинтересованного в реальной реализации, я придумал пакет python3, частично основанный на приведенной выше статье. Он содержит контейнер на основе trie, а также контейнер отображения, где ключи являются наборами. Вы можете найти его на github.

Ответ 2

Я думаю, что префикс trie - отличное начало.

Поскольку ваши массивы разрежены, я бы дополнительно тестировал их навалом. Если (B1 ∪ B2) ⊂ A, оба включены. Поэтому идея состоит в OR-pack массивах по парам и повторять до тех пор, пока не будет только один "корневой" массив (это займет всего в два раза больше места). Это позволяет ранее ответить на вопрос "Да", который в основном полезен , если вам не нужно знать, что массив содержит.

Независимо, вы можете применить для каждого массива хеш-функцию, сохраняющую порядок.

Ie: B ⊂ A ⇒ h(B) ≺ h(A)

Биты ORing - это такая функция, но вы можете также подсчитать каждый 1-бит в соответствующих разделах массива. Здесь вы можете быстрее удалить кандидатов (отвечая "Нет" для определенного массива).

Ответ 3

Вы можете упростить эту проблему, сначала уменьшив список наборов до "минимальных" наборов: сохраняйте только те наборы, которые не являются надмножествами других. Проблема остается той же, потому что, если какой-либо входной набор A является надмножеством некоторого набора B, который вы удалили, то это также надмножество хотя бы одного "минимального" подмножества C of B, которое не было удалено, Преимущество этого заключается в том, что вы склонны устранять большие наборы, что делает проблему менее дорогостоящей.

Оттуда я бы использовал какой-то алгоритм ID3 или C4.5.