Как я могу удалить все знаки препинания из строки в JavaScript с помощью regex?
Если у меня есть строка с любым типом не буквенно-цифрового символа в ней:
"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"
Как я могу получить версию без препинания в JavaScript:
"This is an example of a string with punctuation"
Ответы
Ответ 1
Если вы хотите удалить определенную пунктуацию из строки, вероятно, лучше всего явно удалить именно то, что вам нужно, например
replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")
Выполнение вышеуказанного еще не возвращает строку, как вы ее указали. Если вы хотите удалить лишние пробелы, оставшиеся от удаления сумасшедшей пунктуации, тогда вы захотите сделать что-то вроде
replace(/\s{2,}/g," ");
Мой полный пример:
var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");
Результаты запуска кода в консоли firebug:
![alt text]()
Ответ 2
str = str.replace(/[^\w\s]|_/g, "")
.replace(/\s+/g, " ");
Удаляет все, кроме буквенно-цифровых символов и пробелов, затем сворачивает несколько соседних символов в одиночные пробелы.
Подробное объяснение:
-
\w
- любая цифра, буква или знак подчеркивания.
-
\s
- это пробел.
-
[^\w\s]
- это не цифра, буква, пробел или символ подчеркивания.
-
[^\w\s]|_
- это то же самое, что и # 3, за исключением того, что подчеркивания добавлены обратно.
Ответ 3
Ниже приведены стандартные символы пунктуации для US-ASCII: !"#$%&'()*+,-./:;<=>[email protected][\]^_`{|}~
Для пунктуации Unicode (например, фигурных кавычек, em-тире и т.д.) вы можете легко сопоставлять определенные диапазоны блоков. Блок Общая пунктуация - \u2000-\u206F
, а блок Дополнительные пунктуации - \u2E00-\u2E7F
.
Сгруппировавшись и правильно экранировавшись, вы получите следующий RegExp:
/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>[email protected]\[\]^_`{|}~]/
Это должно соответствовать почти любой пунктуации, с которой вы сталкиваетесь. Итак, чтобы ответить на исходный вопрос:
var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>[email protected]\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');
>> "This is an example of a string with punctuation"
Источник US-ASCII: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix
Источник Unicode: http://kourge.net/projects/regexp-unicode-block
Ответ 4
Для строк en-US (американский английский) это должно быть достаточно:
"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )
Помните, что если вы поддерживаете UTF-8 и символы, такие как китайский/русский и все, это также заменит их, поэтому вам действительно нужно указать, что вы хотите.
Ответ 5
В языке, поддерживающем Unicode, свойство символа пунктуации Юникода \p{P}
- которое обычно можно сокращать \pP
, а иногда расширяться до \p{Punctuation}
для удобства чтения.
Используете ли вы библиотеку регулярных выражений Perl Compatible Regular Expression?
Ответ 6
Я просто поставлю его для других.
Соответствует всем символам препинания для всех языков:
Построен из категории препинания Unicode и добавил некоторые общие символы клавиатуры, такие как $
и скобки и \-=_
http://www.fileformat.info/info/unicode/category/Po/list.htm
базовая замена:
".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"
добавлено\s как пространство
".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)
добавил ^ для инвертирования шаблона, чтобы он соответствовал не пунктуации, а сами слова
".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)
для языка, такого как иврит, возможно, чтобы удалить "" сингл и двойную кавычку и больше думать об этом.
используя этот script:
Шаг 1: выберите в Firefox, удерживая управление столбцом номеров U + 1234 и скопируйте его, не копируйте U + 12456, они заменяют английский
шаг 2 (я сделал в хроме), найдите текстовое поле и вставьте его в него, затем щелкните правой кнопкой мыши и нажмите "проверить". то вы можете получить доступ к выбранному элементу с помощью $0.
var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else { var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")
шаг 3 скопирован по первым буквам ascii, поскольку отдельные символы не варьируются, потому что кто-то может добавлять или удалять отдельные символы
Ответ 7
Я столкнулся с одной и той же проблемой, это решение получило трюк и было очень читаемым:
var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);
Результат:
"This is an example of a string with punctuation"
Хитрость заключалась в создании отрицательного набора. Это означает, что он соответствует любому, что не входит в набор, то есть [^abc]
- не a, b или c
\W
- любое не-слово, поэтому [^\W]+
будет отрицать все, что не является словом char.
Добавляя в _ (подчеркивание), вы можете также отрицать это.
Сделать это применимо глобально /g
, тогда вы можете запустить через него любую строку и очистить пунктуацию:
/[^_\W]+/g
Приятный и чистый;)
Ответ 8
/[^ A-Za-z0-9\s]/g должен соответствовать всем пунктуациям, но сохранять пробелы.
Таким образом, вы можете использовать .replace(/\s{2,}/g, " ")
, чтобы заменить лишние пробелы, если вам нужно это сделать. Вы можете проверить регулярное выражение в http://rubular.com/
.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")
Обновление: будет работать только в том случае, если на входе используется ANSI English.
Ответ 9
По Список пунктуаций в Википедии Мне пришлось создать следующее регулярное выражение, которое обнаруживает пунктуации:
[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’""'";/⁄·\&*@\•^†‡°"¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]
Ответ 10
Если вы хотите сохранить только алфавиты и пробелы, вы можете сделать:
str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')
Ответ 11
если вы используете lodash
_.words('This, is : my - test,line:').join(' ')
Этот пример
_.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')
Ответ 12
Это зависит от того, что вы пытаетесь вернуть. Я использовал это недавно:
return text.match(/[a-z]/i);