Нечетный дизайн базы данных, руководство по потребностям

Вероятно, я думаю об этом неправильно, но здесь идет.

Компьютер начинает выплескивать беспорядочные случайные числа между 11111111111111111111 и 99999999999999999999, в линейной строке:

Когда я записываю все эти числа, мне нужно уметь давать обоснованное предположение в любой момент времени:

Как я могу структурировать таблицы в базе данных MySQL для хранения всех этих чисел? Какой двигатель я использую и почему? Как сформулировать свои запросы? Мне нужно знать быстро, но способность также важна, потому что когда вещь перестанет выплевывать их?

Уникальный идентификатор почти всегда будет короче, чем число = быстрее совпадение. Цифры повторяются = меньше строк идентификаторов = быстрее выполняется сравнение.

Если мне нужно только left/before или нужно только после/справа, я уменьшу размер второго запроса.

Я потерялся....:( Каждый номер имеет четыре атрибута, то, что предшествует + частоте, и то, что приходит после + частоты.

Неужели мне лучше подумать об этом? Если я храню и увеличиваю частоту в таблице, я удаляю повторение и тем самым ускоряю свои запросы? Я изначально думал, что если я сохраню все случаи, было бы быстрее изобразить частоту программно.......

Такие простые данные, но я просто не знаю, как работают базы данных, которые более эффективны.

В свете недавнего комментария я хотел бы добавить немного информации о реальной проблеме: у меня строка неопределенной длины. Я пытаюсь сохранить в этой строке таблицу частот цепи Маркова различных символов или фрагментов символов.

Для любой точки в строке мне нужно знать вероятность следующего состояния и вероятность предыдущего состояния.

Я ожидаю ввода пользователя, основываясь на тексте и прошлом пользовательском вводе. Основное отличие по сравнению с другими приложениями, которые я видел, это то, что я иду дальше по цепочке, больше состояний в данный момент времени, и мне нужны данные частоты, чтобы предоставить несколько возможностей.

Я надеюсь, что это еще раз прояснит картину. Я не хотел вникать в проблему, потому что в прошлом я создал вопросы, которые недостаточно специфичны, чтобы получить конкретный ответ.

Кажется, это немного лучше. Мой основной вопрос с этим решением: Предоставляет ли "ключ" (первые несколько символов состояния) увеличение скорости системы? i.e для state_key, затем запрашивать только результаты этого запроса для полного состояния?

Ответы

Ответ 1

Я не знаком с Марковскими цепями, но вот попытка ответить на вопрос. Примечание. Чтобы упростить ситуацию, позвольте каждой строке чисел указать "состояние".

Прежде всего, я представляю себе такую таблицу

Table states:
order : integer autonumeric (add an index here)
state_id : integer (add an index here)
state : varchar (?)

: просто используйте последовательный номер (1,2,3,..., n), это упростит поиск предыдущего или следующего состояния.

state_id: уникальный номер, связанный с состоянием. Например, вы можете использовать число 1 для представления состояния "1111111111... 1" (независимо от длины последовательности). Важно то, что повторение штата должно использовать тот же state_id, который использовался ранее. Вы можете сформулировать state_id на основе строки (возможно, вычитая число). Конечно, state_id имеет смысл только в том случае, если число возможных состояний совпадает с полем MySQL int.

state: это строка чисел 11111111... 1 'to' 99999999... 9 '... Я предполагаю, что это можно сохранить только как строку, но если она вписывается в целое число/число столбец, вы должны попробовать его, так как вполне возможно, что вам не нужен state_id

Точка state_id заключается в том, что поиск числа быстрее, чем поиск текстов, но всегда есть компромиссы, когда дело доходит до профиля производительности... и определяют ваши узкие места, чтобы принимать более конструктивные решения.

Итак, как вы смотрите предыдущее появление состояния S_i?

"SELECT order, state_id, состояние FROM state WHERE state_id =", а затем присоедините get_state_id (S_i), где get_state_id идеально использует формулу для генерации уникального идентификатора для состояния.

Теперь, с порядком - 1 или заказом + 1, вы можете получить доступ к соседним состояниям, выдающим дополнительный запрос.

Далее нам нужно отслеживать частоту различных вхождений. Вы можете сделать это в другой таблице, которая может выглядеть так:

Table state_frequencies:
state_id integer (indexed)
occurrences integer

И только добавьте записи, когда вы получите числа.

Наконец, вы можете иметь таблицы для отслеживания частоты для соседних состояний:

Table prev_state_frequencies (next_state_frequencies is the same):
state_id: integer (indexed)
prev_state_id: integer (indexed)
occurrences: integer

Вы сможете вывести вероятности (я думаю, это то, что вы пытаетесь сделать), просмотрев количество вхождений состояния (в state_frequencies) и количество вхождений его состояния-предшественника (в prev_state_frequencies).

Я не уверен, правильно ли я понял вашу проблему, но если это имеет смысл, я предполагаю, что у меня есть.

Надеюсь, что это поможет, AH

Ответ 2

Мне кажется, что Марковская цепь конечна, поэтому сначала я бы начал с определения предела цепочки (т.е. 26 символов с x количеством заполняемых пробелов), тогда вы можете рассчитать общее количество возможных комбинаций. для определения вероятности некоторой компоновки символов математика, если я правильно помню:

x = ((C) (C)) (P)

где

C = количество возможных символов и

P = общие потенциальные исходы.

это тонна данных для хранения и создания процедур для фильтрации данных может оказаться бесконечной задачей.

- > если вы используете автоматически увеличивающийся id в своей таблице, вы можете запросить таблицу и использовать preg_match для проверки нового результата по сравнению с предыдущими результатами, а затем вставить количество итоговых совпадений с новым результатом в таблицу, это также позволит вам выполнить запрос предыдущие результаты, чтобы увидеть, что было раньше, это должно дать вам общее представление о шаблоне в результатах, а также общую базу статистической значимости и генерации нового алгоритма.