Как разбить строку, но также сохранить разделители?
У меня есть многострочная строка, которая ограничена набором разных разделителей:
(Text1)(DelimiterA)(Text2)(DelimiterC)(Text3)(DelimiterB)(Text4)
Я могу разбить эту строку на ее части, используя String.split
, но кажется, что я не могу получить фактическую строку, которая соответствовала регулярному выражению разделителя.
Другими словами, это то, что я получаю:
Это то, что я хочу
-
Text1
-
DelimiterA
-
Text2
-
DelimiterC
-
Text3
-
DelimiterB
-
Text4
Есть ли какой-нибудь способ JDK для разделения строки с использованием регулярного выражения разделителя, но также сохранить разделители?
Ответы
Ответ 1
Вы можете использовать Lookahead и Lookbehind. Вот так:
System.out.println(Arrays.toString("a;b;c;d".split("(?<=;)")));
System.out.println(Arrays.toString("a;b;c;d".split("(?=;)")));
System.out.println(Arrays.toString("a;b;c;d".split("((?<=;)|(?=;))")));
И вы получите:
[a;, b;, c;, d]
[a, ;b, ;c, ;d]
[a, ;, b, ;, c, ;, d]
Последнее, что вы хотите.
((?<=;)|(?=;))
равно выбрать пустой символ до ;
или после ;
.
Надеюсь, что это поможет.
РЕДАКТИРОВАТЬ Комментарии Фабиана Стейга по Readability действительны. Считываемость всегда является проблемой для RegEx. Одна вещь, я делаю, чтобы облегчить это - создать переменную, чье имя представляет то, что делает регулярное выражение, и использовать формат строки Java, чтобы помочь этому. Вот так:
static public final String WITH_DELIMITER = "((?<=%1$s)|(?=%1$s))";
...
public void someMethod() {
...
final String[] aEach = "a;b;c;d".split(String.format(WITH_DELIMITER, ";"));
...
}
...
Это немного помогает.:-D
Ответ 2
Вы хотите использовать lookarounds и разделить на совпадения нулевой ширины. Вот несколько примеров:
public class SplitNDump {
static void dump(String[] arr) {
for (String s : arr) {
System.out.format("[%s]", s);
}
System.out.println();
}
public static void main(String[] args) {
dump("1,234,567,890".split(","));
// "[1][234][567][890]"
dump("1,234,567,890".split("(?=,)"));
// "[1][,234][,567][,890]"
dump("1,234,567,890".split("(?<=,)"));
// "[1,][234,][567,][890]"
dump("1,234,567,890".split("(?<=,)|(?=,)"));
// "[1][,][234][,][567][,][890]"
dump(":a:bb::c:".split("(?=:)|(?<=:)"));
// "[][:][a][:][bb][:][:][c][:]"
dump(":a:bb::c:".split("(?=(?!^):)|(?<=:)"));
// "[:][a][:][bb][:][:][c][:]"
dump(":::a::::b b::c:".split("(?=(?!^):)(?<!:)|(?!:)(?<=:)"));
// "[:::][a][::::][b b][::][c][:]"
dump("a,bb:::c d..e".split("(?!^)\\b"));
// "[a][,][bb][:::][c][ ][d][..][e]"
dump("ArrayIndexOutOfBoundsException".split("(?<=[a-z])(?=[A-Z])"));
// "[Array][Index][Out][Of][Bounds][Exception]"
dump("1234567890".split("(?<=\\G.{4})"));
// "[1234][5678][90]"
// Split at the end of each run of letter
dump("Boooyaaaah! Yippieeee!!".split("(?<=(?=(.)\\1(?!\\1))..)"));
// "[Booo][yaaaa][h! Yipp][ieeee][!!]"
}
}
И да, это тройное вложенное утверждение там в последнем шаблоне.
Связанные вопросы
См. также
Ответ 3
import java.util.regex.*;
import java.util.LinkedList;
public class Splitter {
private static final Pattern DEFAULT_PATTERN = Pattern.compile("\\s+");
private Pattern pattern;
private boolean keep_delimiters;
public Splitter(Pattern pattern, boolean keep_delimiters) {
this.pattern = pattern;
this.keep_delimiters = keep_delimiters;
}
public Splitter(String pattern, boolean keep_delimiters) {
this(Pattern.compile(pattern==null?"":pattern), keep_delimiters);
}
public Splitter(Pattern pattern) { this(pattern, true); }
public Splitter(String pattern) { this(pattern, true); }
public Splitter(boolean keep_delimiters) { this(DEFAULT_PATTERN, keep_delimiters); }
public Splitter() { this(DEFAULT_PATTERN); }
public String[] split(String text) {
if (text == null) {
text = "";
}
int last_match = 0;
LinkedList<String> splitted = new LinkedList<String>();
Matcher m = this.pattern.matcher(text);
while (m.find()) {
splitted.add(text.substring(last_match,m.start()));
if (this.keep_delimiters) {
splitted.add(m.group());
}
last_match = m.end();
}
splitted.add(text.substring(last_match));
return splitted.toArray(new String[splitted.size()]);
}
public static void main(String[] argv) {
if (argv.length != 2) {
System.err.println("Syntax: java Splitter <pattern> <text>");
return;
}
Pattern pattern = null;
try {
pattern = Pattern.compile(argv[0]);
}
catch (PatternSyntaxException e) {
System.err.println(e);
return;
}
Splitter splitter = new Splitter(pattern);
String text = argv[1];
int counter = 1;
for (String part : splitter.split(text)) {
System.out.printf("Part %d: \"%s\"\n", counter++, part);
}
}
}
/*
Example:
> java Splitter "\W+" "Hello World!"
Part 1: "Hello"
Part 2: " "
Part 3: "World"
Part 4: "!"
Part 5: ""
*/
Мне не нравится другой способ, когда вы получаете пустой элемент спереди и сзади. Разделитель обычно не находится в начале или в конце строки, поэтому вы чаще всего теряете два хороших слота массива.
Изменить: Фиксированные лимиты. Источник комментариев с тестовыми примерами можно найти здесь: http://snippets.dzone.com/posts/show/6453
Ответ 4
Очень наивное решение, которое не связано с регулярным выражением, должно заключаться в том, чтобы заменить строку на разделителе вдоль строк (считая запятую для разделителя):
string.replace(FullString, "," , "~,~")
Если вы можете заменить tilda (~) на соответствующий уникальный разделитель.
Затем, если вы разделите свой новый разделитель, я верю, что вы получите желаемый результат.
Ответ 5
Я задержался здесь поздно, но, возвращаясь к исходному вопросу, почему бы просто не использовать поисковые запросы?
Pattern p = Pattern.compile("(?<=\\w)(?=\\W)|(?<=\\W)(?=\\w)");
System.out.println(Arrays.toString(p.split("'ab','cd','eg'")));
System.out.println(Arrays.toString(p.split("boo:and:foo")));
выход:
[', ab, ',', cd, ',', eg, ']
[boo, :, and, :, foo]
EDIT: то, что вы видите выше, это то, что появляется в командной строке при запуске этого кода, но теперь я вижу, что это немного запутанно. Трудно отслеживать, какие запятые являются частью результата и которые были добавлены Arrays.toString()
. Выделение синтаксиса SO также не помогает. В надежде получить подсветку для работы со мной, а не против меня, вот как эти массивы будут выглядеть, я объявляю их в исходном коде:
{ "'", "ab", "','", "cd", "','", "eg", "'" }
{ "boo", ":", "and", ":", "foo" }
Надеюсь, что читать легче. Спасибо за хэдз-ап, @finnw.
Ответ 6
Я посмотрел на вышеупомянутые ответы, и, честно говоря, ни один из них не нашел удовлетворительным. То, что вы хотите сделать, в основном имитирует функциональность разделения Perl. Почему Java не допускает этого и метод join() где-то находится вне меня, но я отвлекаюсь. Для этого вам даже не нужен класс. Его просто функция. Запустите эту программу:
Некоторые из более ранних ответов имеют чрезмерную проверку нулевого значения, и я недавно написал ответ на вопрос:
https://stackoverflow.com/users/18393/cletus
В любом случае, код:
public class Split {
public static List<String> split(String s, String pattern) {
assert s != null;
assert pattern != null;
return split(s, Pattern.compile(pattern));
}
public static List<String> split(String s, Pattern pattern) {
assert s != null;
assert pattern != null;
Matcher m = pattern.matcher(s);
List<String> ret = new ArrayList<String>();
int start = 0;
while (m.find()) {
ret.add(s.substring(start, m.start()));
ret.add(m.group());
start = m.end();
}
ret.add(start >= s.length() ? "" : s.substring(start));
return ret;
}
private static void testSplit(String s, String pattern) {
System.out.printf("Splitting '%s' with pattern '%s'%n", s, pattern);
List<String> tokens = split(s, pattern);
System.out.printf("Found %d matches%n", tokens.size());
int i = 0;
for (String token : tokens) {
System.out.printf(" %d/%d: '%s'%n", ++i, tokens.size(), token);
}
System.out.println();
}
public static void main(String args[]) {
testSplit("abcdefghij", "z"); // "abcdefghij"
testSplit("abcdefghij", "f"); // "abcde", "f", "ghi"
testSplit("abcdefghij", "j"); // "abcdefghi", "j", ""
testSplit("abcdefghij", "a"); // "", "a", "bcdefghij"
testSplit("abcdefghij", "[bdfh]"); // "a", "b", "c", "d", "e", "f", "g", "h", "ij"
}
}
Ответ 7
Я знаю, что это очень старый вопрос, и ответ также был принят. Но все же я хотел бы представить очень простой ответ на оригинальный вопрос. Рассмотрим этот код:
String str = "Hello-World:How\nAre You&doing";
inputs = str.split("(?!^)\\b");
for (int i=0; i<inputs.length; i++) {
System.out.println("a[" + i + "] = \"" + inputs[i] + '"');
}
ВЫВОД:
a[0] = "Hello"
a[1] = "-"
a[2] = "World"
a[3] = ":"
a[4] = "How"
a[5] = "
"
a[6] = "Are"
a[7] = " "
a[8] = "You"
a[9] = "&"
a[10] = "doing"
Я использую только границу слова \b
, чтобы разграничить слова, кроме тех случаев, когда это начало текста.
Ответ 8
Мне нравится идея StringTokenizer, потому что она перечислима.
Но он также устарел и заменяется на String.split, который возвращает скучную строку [] (и не включает разделители).
Итак, я реализовал StringTokenizerEx, который является Iterable, и который принимает истинное regexp для разделения строки.
Истинное регулярное выражение означает, что повторение символьной последовательности не является разделителем:
"o" будет соответствовать только "o" и разбивать "ooo" на три разделителя с двумя пустыми строками внутри:
[o], '', [o], '', [o]
Но regexp o + вернет ожидаемый результат при расщеплении "aooob"
[], 'a', [ooo], 'b', []
Чтобы использовать этот StringTokenizerEx:
final StringTokenizerEx aStringTokenizerEx = new StringTokenizerEx("boo:and:foo", "o+");
final String firstDelimiter = aStringTokenizerEx.getDelimiter();
for(String aString: aStringTokenizerEx )
{
// uses the split String detected and memorized in 'aString'
final nextDelimiter = aStringTokenizerEx.getDelimiter();
}
Код этого класса доступен в DZone Snippets.
Как обычно для ответа code-challenge (один автономный класс с включенными тестовыми примерами), копировать-вставить it (в каталоге 'src/test') и запустить. Его метод main() иллюстрирует различные способы использования.
Примечание: (редактирование в конце 2009 года)
Статья Заключительные мысли: Java Puzzler: Splitting Hairs делает хорошую работу, объясняя странное поведение в String.split()
.
Джош Блох даже прокомментировал в ответ на эту статью:
Да, это боль. FWIW, это было сделано по очень веской причине: совместимость с Perl.
Парень, который это сделал, Майк "madbot" Макклоски, который теперь работает с нами в Google. Майк убедился, что регулярные выражения Java передают практически каждый из 30K тестов регулярного выражения Perl (и работают быстрее).
Google общая библиотека Guava содержит также Splitter, который:
- проще использовать
- поддерживается Google (а не вами)
Так что, возможно, стоит проверить. Из исходная грубая документация (pdf):
JDK имеет следующее:
String[] pieces = "foo.bar".split("\\.");
Прекрасно использовать это, если вы хотите точно, что он делает: - регулярное выражение - результат как массив - его способ обработки пустых предметов
Мини-головоломка: ", a, b,". split ( "," ) возвращает...
(a) "", "a", "", "b", ""
(b) null, "a", null, "b", null
(c) "a", null, "b"
(d) "a", "b"
(e) None of the above
Ответ: (e) Ничего из вышеперечисленного.
",a,,b,".split(",")
returns
"", "a", "", "b"
Пропущены только задние пустоты! (Кто знает обходное решение, чтобы предотвратить пропуски? Это весело...)
В любом случае наш Splitter просто более гибкий: поведение по умолчанию упрощено:
Splitter.on(',').split(" foo, ,bar, quux,")
--> [" foo", " ", "bar", " quux", ""]
Если вам нужны дополнительные функции, попросите их!
Splitter.on(',')
.trimResults()
.omitEmptyStrings()
.split(" foo, ,bar, quux,")
--> ["foo", "bar", "quux"]
Порядок конфигурационных методов не имеет значения - при расщеплении происходит обрезка перед проверкой на наличие опорожнений.
Ответ 9
Пройдите 3-й курс как "истинный". Он также вернет разделители.
StringTokenizer(String str, String delimiters, true);
Ответ 10
Вот простая чистая реализация, которая согласуется с Pattern#split
и работает с шаблонами переменной длины, которые выглядят не могут, и их проще использовать. Это похоже на решение, предоставленное @cletus.
public static String[] split(CharSequence input, String pattern) {
return split(input, Pattern.compile(pattern));
}
public static String[] split(CharSequence input, Pattern pattern) {
Matcher matcher = pattern.matcher(input);
int start = 0;
List<String> result = new ArrayList<>();
while (matcher.find()) {
result.add(input.subSequence(start, matcher.start()).toString());
result.add(matcher.group());
start = matcher.end();
}
if (start != input.length()) result.add(input.subSequence(start, input.length()).toString());
return result.toArray(new String[0]);
}
Здесь я не делаю нулевые проверки, Pattern#split
не делает, почему я должен. Мне не нравится if
в конце, но он необходим для согласованности с Pattern#split
. В противном случае я бы безоговорочно добавлял, в результате чего пустая строка была последним элементом результата, если строка ввода заканчивается шаблоном.
Я конвертирую в String [] для согласования с Pattern#split
, я использую new String[0]
, а не new String[result.size()]
, см. здесь для почему.
Вот мои тесты:
@Test
public void splitsVariableLengthPattern() {
String[] result = Split.split("/foo/$bar/bas", "\\$\\w+");
Assert.assertArrayEquals(new String[] { "/foo/", "$bar", "/bas" }, result);
}
@Test
public void splitsEndingWithPattern() {
String[] result = Split.split("/foo/$bar", "\\$\\w+");
Assert.assertArrayEquals(new String[] { "/foo/", "$bar" }, result);
}
@Test
public void splitsStartingWithPattern() {
String[] result = Split.split("$foo/bar", "\\$\\w+");
Assert.assertArrayEquals(new String[] { "", "$foo", "/bar" }, result);
}
@Test
public void splitsNoMatchesPattern() {
String[] result = Split.split("/foo/bar", "\\$\\w+");
Assert.assertArrayEquals(new String[] { "/foo/bar" }, result);
}
Ответ 11
Я не знаю о существующей функции в Java API, которая делает это (что не означает, что ее не существует), но здесь моя собственная реализация (один или несколько разделителей будут возвращены как один токен; если вы хотите, чтобы каждый разделитель возвращался как отдельный токен, ему потребуется немного адаптации):
static String[] splitWithDelimiters(String s) {
if (s == null || s.length() == 0) {
return new String[0];
}
LinkedList<String> result = new LinkedList<String>();
StringBuilder sb = null;
boolean wasLetterOrDigit = !Character.isLetterOrDigit(s.charAt(0));
for (char c : s.toCharArray()) {
if (Character.isLetterOrDigit(c) ^ wasLetterOrDigit) {
if (sb != null) {
result.add(sb.toString());
}
sb = new StringBuilder();
wasLetterOrDigit = !wasLetterOrDigit;
}
sb.append(c);
}
result.add(sb.toString());
return result.toArray(new String[0]);
}
Ответ 12
Я не думаю, что это возможно с String#split
, но вы можете использовать StringTokenizer
, хотя это не позволит вам определить ваш разделитель как регулярное выражение, но только как класс однозначных символов
new StringTokenizer("Hello, world. Hi!", ",.!", true); // true for returnDelims
Ответ 13
Я предлагаю использовать Pattern и Matcher, которые почти наверняка достигнут того, чего вы хотите. Ваше регулярное выражение должно быть несколько более сложным, чем то, что вы используете в String.split.
Ответ 14
Если вы можете себе это позволить, используйте метод замены Java (CharSequence target, CharSequence replacement) и заполните другой разделитель для разделения.
Пример:
Я хочу разбить строку "boo: and: foo" и сохранить ":" в правой части строки.
String str = "boo:and:foo";
str = str.replace(":","newdelimiter:");
String[] tokens = str.split("newdelimiter");
Важное примечание. Это работает только в том случае, если у вас больше нет "newdelimiter" в вашей строке! Таким образом, это не общее решение.
Но если вы знаете CharSequence, из которого вы можете быть уверены, что он никогда не появится в String, это очень простое решение.
Ответ 15
Я также опубликую свои рабочие версии (сначала очень похож на Markus).
public static String[] splitIncludeDelimeter(String regex, String text){
List<String> list = new LinkedList<>();
Matcher matcher = Pattern.compile(regex).matcher(text);
int now, old = 0;
while(matcher.find()){
now = matcher.end();
list.add(text.substring(old, now));
old = now;
}
if(list.size() == 0)
return new String[]{text};
//adding rest of a text as last element
String finalElement = text.substring(old);
list.add(finalElement);
return list.toArray(new String[list.size()]);
}
И вот второе решение и его круг на 50% быстрее первого:
public static String[] splitIncludeDelimeter2(String regex, String text){
List<String> list = new LinkedList<>();
Matcher matcher = Pattern.compile(regex).matcher(text);
StringBuffer stringBuffer = new StringBuffer();
while(matcher.find()){
matcher.appendReplacement(stringBuffer, matcher.group());
list.add(stringBuffer.toString());
stringBuffer.setLength(0); //clear buffer
}
matcher.appendTail(stringBuffer); ///dodajemy reszte ciagu
list.add(stringBuffer.toString());
return list.toArray(new String[list.size()]);
}
Ответ 16
Быстрый ответ: используйте не физические границы, такие как \b для разделения. Я попробую и поэкспериментирую, чтобы увидеть, работает ли это (используется в PHP и JS).
Возможно, и какая-то работа, но может сильно расколоться. Фактически, это зависит от строки, которую вы хотите разбить, и результата, который вам нужен. Дайте более подробную информацию, мы поможем вам лучше.
Другой способ - сделать свой собственный раскол, захватить разделитель (предположим, что он является переменным) и добавить его к результату.
Мой быстрый тест:
String str = "'ab','cd','eg'";
String[] stra = str.split("\\b");
for (String s : stra) System.out.print(s + "|");
System.out.println();
Результат:
'|ab|','|cd|','|eg|'|
Слишком много...: -)
Ответ 17
Измените Pattern.split(), чтобы включить сопоставленный шаблон в список
Добавлен
// add match to the list
matchList.add(input.subSequence(start, end).toString());
Полный источник
public static String[] inclusiveSplit(String input, String re, int limit) {
int index = 0;
boolean matchLimited = limit > 0;
ArrayList<String> matchList = new ArrayList<String>();
Pattern pattern = Pattern.compile(re);
Matcher m = pattern.matcher(input);
// Add segments before each match found
while (m.find()) {
int end = m.end();
if (!matchLimited || matchList.size() < limit - 1) {
int start = m.start();
String match = input.subSequence(index, start).toString();
matchList.add(match);
// add match to the list
matchList.add(input.subSequence(start, end).toString());
index = end;
} else if (matchList.size() == limit - 1) { // last one
String match = input.subSequence(index, input.length())
.toString();
matchList.add(match);
index = end;
}
}
// If no match was found, return this
if (index == 0)
return new String[] { input.toString() };
// Add remaining segment
if (!matchLimited || matchList.size() < limit)
matchList.add(input.subSequence(index, input.length()).toString());
// Construct result
int resultSize = matchList.size();
if (limit == 0)
while (resultSize > 0 && matchList.get(resultSize - 1).equals(""))
resultSize--;
String[] result = new String[resultSize];
return matchList.subList(0, resultSize).toArray(result);
}
Ответ 18
Чрезвычайно наивное и неэффективное решение, которое работает, тем не менее. Используйте два раза в строке, а затем объедините два массива
String temp[]=str.split("\\W");
String temp2[]=str.split("\\w||\\s");
int i=0;
for(String string:temp)
System.out.println(string);
String temp3[]=new String[temp.length-1];
for(String string:temp2)
{
System.out.println(string);
if((string.equals("")!=true)&&(string.equals("\\s")!=true))
{
temp3[i]=string;
i++;
}
// System.out.println(temp.length);
// System.out.println(temp2.length);
}
System.out.println(temp3.length);
String[] temp4=new String[temp.length+temp3.length];
int j=0;
for(i=0;i<temp.length;i++)
{
temp4[j]=temp[i];
j=j+2;
}
j=1;
for(i=0;i<temp3.length;i++)
{
temp4[j]=temp3[i];
j+=2;
}
for(String s:temp4)
System.out.println(s);
Ответ 19
Здесь groovy версия, основанная на некотором коде выше, в случае, если это помогает. Так или иначе. Условно включает голову и хвост (если они не пусты). Последняя часть представляет собой демонстрационный/тестовый сценарий.
List splitWithTokens(str, pat) {
def tokens=[]
def lastMatch=0
def m = str=~pat
while (m.find()) {
if (m.start() > 0) tokens << str[lastMatch..<m.start()]
tokens << m.group()
lastMatch=m.end()
}
if (lastMatch < str.length()) tokens << str[lastMatch..<str.length()]
tokens
}
[['<html><head><title>this is the title</title></head>',/<[^>]+>/],
['before<html><head><title>this is the title</title></head>after',/<[^>]+>/]
].each {
println splitWithTokens(*it)
}
Ответ 20
String expression = "((A+B)*C-D)*E";
expression = expression.replaceAll("\\+", "~+~");
expression = expression.replaceAll("\\*", "~*~");
expression = expression.replaceAll("-", "~-~");
expression = expression.replaceAll("/+", "~/~");
expression = expression.replaceAll("\\(", "~(~"); //also you can use [(] instead of \\(
expression = expression.replaceAll("\\)", "~)~"); //also you can use [)] instead of \\)
expression = expression.replaceAll("~~", "~");
if(expression.startsWith("~")) {
expression = expression.substring(1);
}
String[] expressionArray = expression.split("~");
System.out.println(Arrays.toString(expressionArray));
Ответ 21
Если вас волнуют осложнения, которые могут возникнуть в будущем, и просто захотите использовать метод сплошной полезности, который может справиться с шаблоном токенов any и any разделители, которые вы бросаете на него. (Скорее всего, это так!)
NB удивлен, обнаружив, что люди Apache Commons, похоже, не предоставили это, например. в StringUtils
.
Также я предполагаю, что это должен быть флаг в Pattern
: i..e INCLUDE_SEPARATORS
.
Но это действительно просто, если вы правильно используете классы Pattern
и Matcher
:
// NB could be a different spec for identifying tokens, of course!
Pattern sepAndTokenPattern = Pattern.compile("(.*?)(\\w+)");
Matcher matcher = sepAndTokenPattern.matcher( stringForTokenising );
List<String> tokenAndSeparatorList = new ArrayList<String>();
// for most processing purposes you are going to want to know whether your
// combined list of tokens and separators begins with a token or separator
boolean startsWithToken = true;
int matchEnd = -1;
while (matcher.find()) {
String preSep = matcher.group(1);
if (!preSep.isEmpty()) {
if( tokenAndSeparatorList.isEmpty() ){
startsWithToken = false;
}
// in implementation you wouldn't want these | characters, of course
tokenAndSeparatorList.add("|" + preSep + "|"); // add sep
}
tokenAndSeparatorList.add("|" + matcher.group(2) + "|"); // add token
matchEnd = matcher.end();
}
// get trailing separator, if there is one:
if( matchEnd != -1 ){
String trailingSep = stringForTokenising.substring( matchEnd );
if( ! trailingSep.isEmpty() ){
tokenAndSeparatorList.add( "|" + trailingSep + "|" );
}
}
System.out.println(String.format("# starts with token? %b - matchList %s", startsWithToken, tokenAndSeparatorList));
Ответ 22
Другое решение для кандидата с использованием регулярного выражения. Сохраняет порядок токенов, правильно соответствует нескольким токенам одного типа в строке. Недостатком является то, что регулярное выражение довольно неприятно.
package javaapplication2;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class JavaApplication2 {
/**
* @param args the command line arguments
*/
public static void main(String[] args) {
String num = "58.5+variable-+98*78/96+a/78.7-3443*12-3";
// Terrifying regex:
// (a)|(b)|(c) match a or b or c
// where
// (a) is one or more digits optionally followed by a decimal point
// followed by one or more digits: (\d+(\.\d+)?)
// (b) is one of the set + * / - occurring once: ([+*/-])
// (c) is a sequence of one or more lowercase latin letter: ([a-z]+)
Pattern tokenPattern = Pattern.compile("(\\d+(\\.\\d+)?)|([+*/-])|([a-z]+)");
Matcher tokenMatcher = tokenPattern.matcher(num);
List<String> tokens = new ArrayList<>();
while (!tokenMatcher.hitEnd()) {
if (tokenMatcher.find()) {
tokens.add(tokenMatcher.group());
} else {
// report error
break;
}
}
System.out.println(tokens);
}
}
Пример вывода:
[58.5, +, variable, -, +, 98, *, 78, /, 96, +, a, /, 78.7, -, 3443, *, 12, -, 3]
Ответ 23
Я не слишком хорошо знаю Java, но если вы не можете найти метод Split, который делает это, я предлагаю вам просто сделать свой собственный.
string[] mySplit(string s,string delimiter)
{
string[] result = s.Split(delimiter);
for(int i=0;i<result.Length-1;i++)
{
result[i] += delimiter; //this one would add the delimiter to each items end except the last item,
//you can modify it however you want
}
}
string[] res = mySplit(myString,myDelimiter);
Не слишком элегантный, но он будет делать.