Множество Java заменяют за один проход
Я пытаюсь перевести узлы на новое дерево, отформатированное, и у меня возникли проблемы с правильной заменой. Скажем, у меня есть HashMap
:
"(1:" : "(30:"
",1:" : ",30:"
"(30:" : "(6:"
",30:" : ",6:"
И дерево:
(30:0.07,(1:0.06,2:0.76))
Обычная мудрость предполагает несколько replaceAll
, но это создает проблему:
replaceAll("(1:", "(30:") >> (30:0.07,(30:0.06,2:0.76))
replaceAll("(30:", "(6:") >> (6:0.07,(6:0.06,2:0.76))
Проблема здесь в том, что мы заменили node, который был ранее заменен. Правильное дерево должно выглядеть так:
(6:0.07,(30:0.06,2:0.76))
Теперь я уже сделал это в Python:
def multiple_replace(taxa, text):
regex = re.compile("|".join(map(re.escape, taxa.keys())))
return regex.sub(lambda mo: taxa[mo.group(0)], text)
Но у меня возникают проблемы с моей реализацией Java:
private String convertTree (String treeOld, HashMap<String, String> conv) {
Pattern pattern = Pattern.compile("\\(\\d+:|,\\d+:");
Matcher matcher = pattern.matcher(treeOld);
StringBuilder sbt = new StringBuilder(treeOld);
while (matcher.find()) {
String replace = conv.get(matcher.group());
System.out.println(matcher.group() + "||" +replace + " || " + matcher.start() + ":"+matcher.end());
sbt.delete(matcher.start(), matcher.end());
sbt.insert(matcher.start(), replace);
}
return treeOld;
}
В то время как замена работает, я не могу правильно проиндексировать индексы с разными размерами строк (как показано в примере). Есть ли способ сделать это на Java?
Ответы
Ответ 1
Вы можете использовать Matcher#appendReplacement
для изменения своей строки при сопоставлении.
Обратите внимание, что ваше регулярное выражение можно упростить до [,(]\d+:
, поскольку ваши альтернативные ветки отличаются только от первого символа ([,(]
соответствует либо ,
, либо (
).
Вот демон IDEONE:
import java.util.*;
import java.util.regex.*;
import java.lang.*;
import java.io.*;
class Ideone
{
public static void main (String[] args) throws java.lang.Exception
{
String tree = "(30:0.07,(1:0.06,2:0.76))";
HashMap<String, String> h = new HashMap<String, String>();
h.put("(1:" , "(30:");
h.put(",1:" , ",30:");
h.put("(30:" , "(6:");
h.put(",30:" , ",6:");
System.out.println(convertTree(tree, h));
}
private static String convertTree(String treeOld, HashMap<String, String> conv) {
Pattern pattern = Pattern.compile("[,(]\\d+:"); // Init the regex
Matcher m = pattern.matcher(treeOld); // Init the matcher
StringBuffer result = new StringBuffer(); // Declare the string buffer (can be replaced with a string builder)
while (m.find()) { // Iterate through matches
if (conv.containsKey(m.group(0))) { // Check if the key exists
m.appendReplacement(result, conv.get(m.group(0))); // If yes, use the HashMap value
}
else {
m.appendReplacement(result, m.group(0)); // Else, just reinsert the match value
}
}
m.appendTail(result); // Append what remains to the result
return result.toString();
}
}
Ответ 2
Выяснилось, что нужно использовать значение смещения:
private String singlePassConvert (String text, HashMap<String, String> conv) {
Pattern pattern = Pattern.compile("\\(\\d+:|,\\d+:");
Matcher matcher = pattern.matcher(text);
int offset = 0;
while (matcher.find()) {
String replace = conv.get(matcher.group());
String head = (String) text.subSequence(0, matcher.start() + offset);
String tail = (String) text.subSequence(matcher.end() + offset, text.length());
text = head + conv.get(matcher.group()) + tail;
if (matcher.group().length() > conv.get(matcher.group()).length()) {
offset --;
} else if (matcher.group().length() < conv.get(matcher.group()).length()) {
offset ++;
}
}
return text;
}
Однако, справедливое предупреждение, так как эта реализация не использует StringBuilder
, она может быть медленной на больших строках.
Кроме того, значение смещения работает только для различий в длине +/- 1 и должно быть изменено, если различия по длине неизвестны.