Расшифровка текста, основанный на частотной основе (вопросы о функции стоимости)

Я хотел бы расшифровать тексты на основе частотного анализа. Программирование - это не проблема, но есть некоторые математические трудности.

(Не стоит беспокоиться, а не взломать, я хочу пойти на шифр Zodiac 340, но вопрос в целом заключается в расшифровке http://zodiackillerciphers.com/wiki/images/7/7d/340-cipher-hi-resolution.jpg, а не о других проблемах с шифрованием.)

Я сломал это до 5 кратких вопросов, связанных со стоимостью, чтобы показать мои усилия, короткие ответы - это хорошо, любая помощь оценивается. Моя проблема в том, что различия в значениях в функции стоимости очень малы.

Учитывая

Концепция

Пропустить, если не интересно. Я не хочу вдаваться в подробности здесь, есть несколько методов, которые можно было бы использовать. Грубый эскиз:

Функция затрат

Как бы выглядела функция стоимости? Общий может быть выражен как:

Ответы

Ответ 1

По-моему, ваши вопросы возникают из слишком общей концепции. Невозможно вычислить функцию стоимости, если вы не будете точно определять алгоритм. Я могу предложить подход к точной второй точке вашей концепции:

Рассчитать ожидаемые значения для случайных (например: если у вас есть 100 000 букв, случайный триплет должен произойти 5 раз)
Пусть n будет количество букв в зашифрованном тексте. Затем для каждой буквы возрастает значение Letter [y], Pair [y] [y + 1], Triplet [y] [y + 1] [y + 2]
Если появление некоторых данных значительно больше значений, вычисляемых в 1. Затем попытайтесь судить, насколько близко вы отвечаете.

Тем не менее, точка 3 и "судить" очень общие, но на основании этого я могу дать вам несколько ответов:

Вопросы о функции стоимости

Лучше использовать только самые распространенные слова, потому что это дает вам информацию об отклонении от случайных результатов. Удержание всех слов не дает вам никакой прибыли.
Частота - это мое одобрение. Я не могу найти применение условных вероятностей.

Функция затрат

В моем случае стоимость algortihm равна O (n) + const (для длинных слов вы можете рассмотреть использование хэш-таблиц) + "судить". Проблема продолжается, потому что многие зависят от того, как "судья" будет решена.

Я не знаю, почему вы решили рассчитать такую функцию стоимости, но для меня w1 = 27 * w2 = 27 * 27 * w3 звучит более разумно, потому что у него меньше вероятность появления большого числа средних слов.
В моем решении нет необходимости и преимуществ в использовании условных вероятностей.
И этот вопрос является еще одной большой проблемой и, на мой взгляд, имеет много общего с "Генерировать (полу) случайное решение". Допустим, вы догадались, что буквы 't', 'h', 'e', 'y',. Ваш алгоритм должен распознавать слова "они" , "они" , "они" , но полностью пропускают слова "и", "работа", "нет", "будет". Вы можете использовать характеристики слов, например, "общий" префикс, "воля" 3 и 4 буквы одинаковы и т.д. Это усложняет решение, но оно должно давать лучшие результаты.