Проектирование высокопроизводительной машины State в Java

Я начинаю писать библиотеку Java для создания высокопроизводительных конечных машин. Я знаю, что есть много библиотек, но я хочу писать свои собственные с нуля, так как почти все библиотеки там построили автоматики, оптимизированные для обработки только по одному.

Я хотел бы знать, что люди из сообщества SO, которые занимались дизайном государственного аппарата, являются наиболее важными/лучшими принципами дизайна, когда речь заходит о реализации высокопроизводительных библиотек, подобных этим.

Текущие вопросы, касающиеся дизайна для меня на данный момент:

Ответы

Ответ 1

Хорошо, как быстро вы это хотите? Код в файле brics.dk/automaton объявляет собственные классы состояния и перехода, очевидно, их можно было бы переписать с помощью примитивов (черт, все состояние класса перехода, по-видимому, легко поместилось бы на long).

Вещь, если вы перемещаете, например, класс Transition в просто примитив, то вы не должны больше использовать медленные коллекции HashMap<Transition,...> по умолчанию Java: вы можете использовать библиотеки, такие как Trove TLongObjectHashMap (или TLongInt... или TLongLong, что угодно), который владеет по умолчанию HashMap в больших количествах (библиотеки Trove в основном предоставляют карты и наборы, которые являются суперэффективными, быстрыми и малыми, когда вы работаете с примитивами: вы не генерируете бесчисленное количество мусора или постоянную ненужную упаковку вокруг примитивов, так что меньше GC и т.д. Если вы входите в производительность, то вы хотите проверить Trove... И их 3.0 предстоящий выпуск составляет 20% быстрее, чем Trove 2.0).

Но действительно ли это полезно? По-видимому, эта библиотека уже очень быстро. Нет сомнений, что это можно сделать быстрее, не расточительно создавая объекты и используя коллекции, которые действительно хорошо работают, но не ясно, что это было бы желательно.

Кроме того, я уверен, что библиотека выше не является потокобезопасной. Конструктор состояний создает уникальный идентификатор, делая это:

static int next_id;
.
.
.
id = next_id++;

и этот конструктор вызывается из... 90 разных мест!

Пример учебника о способе не создать уникальный идентификатор в многопоточном сценарии (черт, даже сделать next_id volatile не хватит, вы хотите, например, AtomicInteger здесь). Я недостаточно хорошо разбираюсь в библиотеке, но эта идентификационная вещь выглядит очень подозрительной для меня.

Ответ 2

У меня есть несколько вопросов:

В какой части вам нужно быть быстрым, ввод FSA, создание FSA или выполнение FSA?
Откуда берется вход FSA? Человек вводит состояния и дуги, или какой-то автоматический процесс? Является ли реальный ввод исходным выражением, преобразованным в FSA?
Как часто меняется FSA? Раз в секунду? Один раз в год?

Вы знаете, что вам нужно. Помимо академических машин Тьюринга, я никогда не видел значительную машину состояний, которая не начиналась с текстового представления, либо как регулярное выражение, либо структурированная программа.

В каждом случае, с которым я столкнулся, предпочтительной реализацией было преобразование регулярного выражения непосредственно в простую структурированную программу и ее компиляцию. Ничто не будет выполняться быстрее, чем это.