Agrep: вернуть только лучшие совпадения

Я использую функцию "agrep" в R, которая возвращает вектор совпадений. Мне нужна функция, похожая на agrep, которая возвращает только наилучшее совпадение или лучшие совпадения, если есть связи. В настоящее время я использую функцию sdist() из пакета "cba" для каждого элемента результирующего вектора, но это кажется очень избыточным.

/edit: вот функция, которую я сейчас использую. Я бы хотел ускорить его, так как кажется лишним рассчитать расстояние в два раза.

Ответы

Ответ 1

Пакет RecordLinkage был удален из CRAN, вместо этого используйте stringdist:

library(stringdist)

ClosestMatch2 = function(string, stringVector){

  stringVector[amatch(string, stringVector, maxDist=Inf)]

}

Ответ 2

В пакете agrep используются значения Levenshtein Distances для соответствия строкам. Пакет RecordLinkage имеет функцию C для вычисления расстояния Levenshtein Distance, которое может использоваться непосредственно для ускорения ваших вычислений. Вот отредактированная функция ClosestMatch, которая примерно в 10 раз быстрее

library(RecordLinkage)

ClosestMatch2 = function(string, stringVector){

  distance = levenshteinSim(string, stringVector);
  stringVector[distance == max(distance)]

}