Как вы проверяете орфографию на веб-сайте?

Я знаю, что проверки орфографии не идеальны, но они становятся более полезными, поскольку количество текста у вас увеличивается в размере. Как я могу проверить орфографию сайта с тысячами страниц?

Изменить: из-за сложной обработки на стороне сервера единственный способ получить страницы - через HTTP. Также он не может быть передан сторонним сторонникам.

Изменить: у меня есть список всех URL-адресов на сайте, которые мне нужно проверить.

Ответы

Ответ 1

Кажется, что Lynx хорош для получения текста, который мне нужен (содержание тела и текст) и игнорирование того, что мне не нужно (встроенный Javascript и CSS).

lynx -dump http://www.example.com

В нем также перечислены все URL-адреса (преобразованные в их абсолютную форму) на странице, которые можно отфильтровать с помощью grep:

lynx -dump http://www.example.com | grep -v "http"

URL-адреса также могут быть локальными (file://), если я использовал wget для зеркального отображения сайта.

Я напишу script, который будет обрабатывать набор URL-адресов, используя этот метод, и выводит каждую страницу в отдельный текстовый файл. Затем я могу использовать существующее решение проверки орфографии для проверки файлов (или одного большого файла, объединяющего все мелкие).

Это игнорирует текст в заголовке и мета-элементах. Они могут быть проверены орфографически отдельно.

Ответ 2

Только за несколько дней до того, как я обнаружил Spello checker. Он использует мой NHunspell (Open Office Spell Checker для .NET) libaray. Вы можете попробовать.

Ответ 3

Если вы можете получить доступ к содержимому сайта в виде файлов, вы можете написать небольшую оболочку Unix script, которая выполняет задание. Следующий script будет печатать имя файла, номера строки и слова с ошибками. Качество вывода зависит от качества вашего системного словаря.

#!/bin/sh

# Find HTML files
find $1 -name \*.html -type f |
while read f
do
        # Split file into words
        sed '
# Remove CSS
/<style/,/<\/style/d
# Remove Javascript
/<script/,/<\/script/d
# Remove HTML tags
s/<[^>]*>//g
# Remove non-word characters
s/[^a-zA-Z]/ /g
# Split words into lines
s/[     ][      ]*/\
/g ' "$f" |
        # Remove blank lines
        sed '/^$/d' |
        # Sort the words
        sort -u |
        # Print words not in the dictionary
        comm -23 - /usr/share/dict/words >/tmp/spell.$$.out
        # See if errors were found
        if [ -s /tmp/spell.$$.out ]
        then
                # Print file, number, and matching words
                fgrep -Hno -f /tmp/spell.$$.out "$f"
        fi
done
# Remove temporary file
rm /tmp/spell.$$.out

Ответ 4

Я очень рекомендую Inspyder InSite, это коммерческое программное обеспечение, но у них есть пробная версия, это стоит денег. Я использовал его в течение многих лет, чтобы проверить правописание клиентских сайтов. Он поддерживает автоматизацию/планирование и может интегрироваться с списками пользовательских слов CMS. Это также хороший способ проверки ссылок и генерации отчетов.

Ответ 5

Если это один, и из-за количества страниц для проверки, возможно, стоит подумать о чем-то вроде spellr.us, который будет быстрым решением. Вы можете ввести URL-адрес своего веб-сайта на главной странице, чтобы понять, как он будет сообщать о орфографических ошибках.

http://spellr.us/

но я уверен, что есть несколько бесплатных альтернатив.

Ответ 6

Вы можете сделать это с помощью оболочки script, объединяющей wget с aspell. У вас была проблема программирования?

Я лично использовал python с Beautiful Soup, чтобы извлечь текст из тегов и передать текст через aspell.

Ответ 7

Используйте шаблоны (хорошо) с помощью вашего webapp (если вы программируете сайт, а не просто записываете html) и html-редактор, который включает проверку орфографии. Eclipse делает для одного.

Если это невозможно по какой-то причине... да, wget для загрузки готовых страниц и что-то вроде этого:

http://netsw.org/dict/tools/ispell-html-mode.patch

Ответ 8

Мы используем элемент управления Telerik RAD Spell в наших приложениях ASP.NET.

Telerik RAD Spell

Ответ 9

Возможно, вы захотите проверить библиотеку как jspell.

Ответ 10

Я сделал английскую проверку орфографии с Ruby здесь: https://github.com/Vinietskyzilla/fuzzy-wookie

Попробуйте.

Основной недостаток - отсутствие полного словаря, который включает в себя все формы каждого слова (множественное число, а не только единственное, "имеет", а не только "иметь" ). Подставляя свой собственный словарь, если вы можете найти или сделать лучше, сделайте его действительно потрясающим.

В стороне, я думаю, что самый простой способ проверить право на одну веб-страницу - нажать ctrl + a (или cmd + a), чтобы выбрать весь текст, а затем скопировать и вставить его в многострочное текстовое поле на веб-странице. (Например <html><head></head><body><textarea></textarea></body></html>.) Ваш браузер должен подчеркнуть любые слова с ошибками.

Ответ 11

@Энтони Рой, я сделал именно то, что ты сделал. Проложил страницу через Аспелл через Пиренант. У меня есть английские словари (GB, CA, US) для использования на моем сайте https://www.validator.pro/. Свяжитесь со мной, и я настрою одноразовую работу для проверки 1000 страниц и более.