Как вы проверяете орфографию на веб-сайте?
Я знаю, что проверки орфографии не идеальны, но они становятся более полезными, поскольку количество текста у вас увеличивается в размере. Как я могу проверить орфографию сайта с тысячами страниц?
Изменить: из-за сложной обработки на стороне сервера единственный способ получить страницы - через HTTP. Также он не может быть передан сторонним сторонникам.
Изменить: у меня есть список всех URL-адресов на сайте, которые мне нужно проверить.
Ответы
Ответ 1
Кажется, что Lynx хорош для получения текста, который мне нужен (содержание тела и текст) и игнорирование того, что мне не нужно (встроенный Javascript и CSS).
lynx -dump http://www.example.com
В нем также перечислены все URL-адреса (преобразованные в их абсолютную форму) на странице, которые можно отфильтровать с помощью grep:
lynx -dump http://www.example.com | grep -v "http"
URL-адреса также могут быть локальными (file://
), если я использовал wget для зеркального отображения сайта.
Я напишу script, который будет обрабатывать набор URL-адресов, используя этот метод, и выводит каждую страницу в отдельный текстовый файл. Затем я могу использовать существующее решение проверки орфографии для проверки файлов (или одного большого файла, объединяющего все мелкие).
Это игнорирует текст в заголовке и мета-элементах. Они могут быть проверены орфографически отдельно.
Ответ 2
Только за несколько дней до того, как я обнаружил Spello checker. Он использует мой
NHunspell (Open Office Spell Checker для .NET) libaray. Вы можете попробовать.
Ответ 3
Если вы можете получить доступ к содержимому сайта в виде файлов, вы можете написать небольшую оболочку Unix script, которая выполняет задание. Следующий script будет печатать имя файла, номера строки и слова с ошибками. Качество вывода зависит от качества вашего системного словаря.
#!/bin/sh
# Find HTML files
find $1 -name \*.html -type f |
while read f
do
# Split file into words
sed '
# Remove CSS
/<style/,/<\/style/d
# Remove Javascript
/<script/,/<\/script/d
# Remove HTML tags
s/<[^>]*>//g
# Remove non-word characters
s/[^a-zA-Z]/ /g
# Split words into lines
s/[ ][ ]*/\
/g ' "$f" |
# Remove blank lines
sed '/^$/d' |
# Sort the words
sort -u |
# Print words not in the dictionary
comm -23 - /usr/share/dict/words >/tmp/spell.$$.out
# See if errors were found
if [ -s /tmp/spell.$$.out ]
then
# Print file, number, and matching words
fgrep -Hno -f /tmp/spell.$$.out "$f"
fi
done
# Remove temporary file
rm /tmp/spell.$$.out
Ответ 4
Я очень рекомендую Inspyder InSite, это коммерческое программное обеспечение, но у них есть пробная версия, это стоит денег. Я использовал его в течение многих лет, чтобы проверить правописание клиентских сайтов. Он поддерживает автоматизацию/планирование и может интегрироваться с списками пользовательских слов CMS. Это также хороший способ проверки ссылок и генерации отчетов.
Ответ 5
Если это один, и из-за количества страниц для проверки, возможно, стоит подумать о чем-то вроде spellr.us, который будет быстрым решением. Вы можете ввести URL-адрес своего веб-сайта на главной странице, чтобы понять, как он будет сообщать о орфографических ошибках.
http://spellr.us/
но я уверен, что есть несколько бесплатных альтернатив.
Ответ 6
Вы можете сделать это с помощью оболочки script, объединяющей wget с aspell. У вас была проблема программирования?
Я лично использовал python с Beautiful Soup, чтобы извлечь текст из тегов и передать текст через aspell.
Ответ 7
Используйте шаблоны (хорошо) с помощью вашего webapp (если вы программируете сайт, а не просто записываете html) и html-редактор, который включает проверку орфографии. Eclipse делает для одного.
Если это невозможно по какой-то причине... да, wget для загрузки готовых страниц и что-то вроде этого:
http://netsw.org/dict/tools/ispell-html-mode.patch
Ответ 8
Мы используем элемент управления Telerik RAD Spell в наших приложениях ASP.NET.
Telerik RAD Spell
Ответ 9
Возможно, вы захотите проверить библиотеку как jspell.
Ответ 10
Я сделал английскую проверку орфографии с Ruby здесь: https://github.com/Vinietskyzilla/fuzzy-wookie
Попробуйте.
Основной недостаток - отсутствие полного словаря, который включает в себя все формы каждого слова (множественное число, а не только единственное, "имеет", а не только "иметь" ). Подставляя свой собственный словарь, если вы можете найти или сделать лучше, сделайте его действительно потрясающим.
В стороне, я думаю, что самый простой способ проверить право на одну веб-страницу - нажать ctrl + a (или cmd + a), чтобы выбрать весь текст, а затем скопировать и вставить его в многострочное текстовое поле на веб-странице. (Например <html><head></head><body><textarea></textarea></body></html>
.) Ваш браузер должен подчеркнуть любые слова с ошибками.
Ответ 11
@Энтони Рой, я сделал именно то, что ты сделал. Проложил страницу через Аспелл через Пиренант. У меня есть английские словари (GB, CA, US) для использования на моем сайте https://www.validator.pro/. Свяжитесь со мной, и я настрою одноразовую работу для проверки 1000 страниц и более.