Использование Sklearn kNN с определяемой пользователем метрикой
В настоящее время я делаю проект, который может потребовать использования алгоритма kNN для поиска лучших k ближайших соседей для данной точки, скажем, P. im, используя python, пакет sklearn для выполнения задания, но наша предопределенная метрика не одна этих показателей по умолчанию. поэтому я должен использовать определенную пользователем метрику, из документов sklearn, которые можно найти здесь и здесь.
Кажется, что последняя версия sklearn kNN поддерживает определяемую пользователем метрику, но я не могу ее найти:
import sklearn
from sklearn.neighbors import NearestNeighbors
import numpy as np
from sklearn.neighbors import DistanceMetric
from sklearn.neighbors.ball_tree import BallTree
BallTree.valid_metrics
Скажем, я определил метрику mydist = max (x-y), а затем применил DistanceMetric.get_metric, чтобы сделать ее объектом DistanceMetric:
dt=DistanceMetric.get_metric('pyfunc',func=mydist)
из документа, строка должна выглядеть так:
nbrs = NearestNeighbors(n_neighbors=4, algorithm='auto',metric='pyfunc').fit(A)
distances, indices = nbrs.kneighbors(A)
но где я могу положить dt
в? Благодаря
Ответы
Ответ 1
Вы передаете метрику как metric
param и дополнительные метрические аргументы в качестве параметров параметров для конструктора NN:
>>> def mydist(x, y):
... return np.sum((x-y)**2)
...
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> nbrs = NearestNeighbors(n_neighbors=4, algorithm='ball_tree',
... metric='pyfunc', func=mydist)
>>> nbrs.fit(X)
NearestNeighbors(algorithm='ball_tree', leaf_size=30, metric='pyfunc',
n_neighbors=4, radius=1.0)
>>> nbrs.kneighbors(X)
(array([[ 0., 1., 5., 8.],
[ 0., 1., 2., 13.],
[ 0., 2., 5., 25.],
[ 0., 1., 5., 8.],
[ 0., 1., 2., 13.],
[ 0., 2., 5., 25.]]), array([[0, 1, 2, 3],
[1, 0, 2, 3],
[2, 1, 0, 3],
[3, 4, 5, 0],
[4, 3, 5, 0],
[5, 4, 3, 0]]))
Ответ 2
Небольшое дополнение к предыдущему ответу. Как использовать определяемую пользователем метрику, которая принимает дополнительные аргументы.
>>> def mydist(x, y, **kwargs):
... return np.sum((x-y)**kwargs["metric_params"]["power"])
...
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> Y = np.array([-1, -1, -2, 1, 1, 2])
>>> nbrs = KNeighborsClassifier(n_neighbors=4, algorithm='ball_tree',
... metric=mydist, metric_params={"power": 2})
>>> nbrs.fit(X, Y)
KNeighborsClassifier(algorithm='ball_tree', leaf_size=30,
metric=<function mydist at 0x7fd259c9cf50>, n_neighbors=4, p=2,
weights='uniform')
>>> nbrs.kneighbors(X)
(array([[ 0., 1., 5., 8.],
[ 0., 1., 2., 13.],
[ 0., 2., 5., 25.],
[ 0., 1., 5., 8.],
[ 0., 1., 2., 13.],
[ 0., 2., 5., 25.]]),
array([[0, 1, 2, 3],
[1, 0, 2, 3],
[2, 1, 0, 3],
[3, 4, 5, 0],
[4, 3, 5, 0],
[5, 4, 3, 0]]))