Проверка орфографии с открытым исходным кодом
Оценивала добавление проверки орфографии к собственному продукту. В соответствии с моим исследованием основные решения, которые необходимо принять:
- Библиотека для использования.
- Словарь (это может быть специфический для региона, английский английский, американский и т.д.).
- Списки исключений. В любое время, когда опечатка обнаруживает, что это не опечатка, а
словосочетание, специфичное для пользователя. На этом этапе пользователям должна быть предоставлена возможность
добавьте это в свой список исключений.
- Помимо пользовательского пользовательского списка также список исключений, основанный на пользовательском пространстве
клиентов инструмента. Это термины/акронимы в домене работы пользователей. Например, FX не будет опечаткой для валютных трейдеров.
Открытые вопросы, которые у меня были, перечислены ниже, и если бы я мог внести в них вклад, это было бы очень полезно.
Для 1 я думал о hunspell, которая является библиотекой с открытым исходным кодом, предлагаемой под MPL, и используется файлами firefox и OpenOffice. Какие-нибудь ужасные истории там, используя это?
Любые серые области с лицензированием? Проверка орфографии произойдет на клиенте Windows.
Словари доступны из разных источников, некоторые из которых доступны под MPL, а некоторые - нет. Любые предложения по хорошим источникам для бесплатных словарей.
Многоязычная поддержка и что нужно разработать для их поддержки?
В качестве 4, как пользовательские словари хранятся в синхронизации со стороной сервера и клиентами? Проверка орфографии должна происходить на клиентском столе, так что каждый раз они запускаются с первоначальным запуском или они синхронизируются так часто?
Ответы
Ответ 1
Как уже упоминалось, Hunspell - это современная проверка орфографии. Это проверка орфографии Open Office, Thunderbird, Firefox и Google Chrome. Доступны порты для всех основных языков программирования. Он работает с каталогами Open Office, поэтому поддерживается множество языков.
Ответ 2
Я использовал Hunspell для нескольких вещей, и у меня на самом деле нет ужасных историй. Я использовал его только с английским (американским), но он утверждает, что работает с другими языками.
Что касается лицензирования, он предлагает выбор GPL, LGPL и MPL. Если вам не нравится MPL, вы всегда можете использовать LGPL.
Ответ 3
Существует несколько кукольных опций, которые широко используются: myspell, aspell. Проверьте их.
Ответ 4
Вот хорошая демонстрация Питера Норвига: я нахожу это простое объяснение более интуитивным. Следуйте ссылкам в документе, а также для более глубокого анализа.
http://norvig.com/spell-correct.html