Как найти наиболее частые значения в numpy ndarray?
У меня есть numpy ndarray с формой (30,480,640), 1-я и 2-я оси, представляющие местоположения (широта и длинная), 0-я ось содержит фактические точки данных. Я хочу использовать наиболее частое значение вдоль 0-й оси на каждом местоположение, которое должно построить новый массив с формой (1,480,640).ie:
>>> data
array([[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[40, 40, 42, 43, 44],
[45, 46, 47, 48, 49],
[50, 51, 52, 53, 54],
[55, 56, 57, 58, 59]]])
(perform calculation)
>>> new_data
array([[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]]])
Точки данных будут содержать отрицательные и положительные числа с плавающей запятой. Как я могу выполнить такие вычисления? Большое спасибо!
Я попытался с numpy.unique, но я получил "TypeError: unique() получил неожиданный аргумент ключевого слова" return_inverse ". Я использую numpy version 1.2.1, установленный в Unix, и он не поддерживает return_inverse. Я также попробовал режим, но на ведение такого большого объема данных требуется вечность... так есть ли альтернативный способ получить самые частые значения? Еще раз спасибо.
Ответы
Ответ 1
Чтобы найти наиболее частое значение плоского массива, используйте unique
, bincount
и argmax
:
arr = np.array([5, 4, -2, 1, -2, 0, 4, 4, -6, -1])
u, indices = np.unique(arr, return_inverse=True)
u[np.argmax(np.bincount(indices))]
Чтобы работать с многомерным массивом, нам не нужно беспокоиться о unique
, но нам нужно использовать apply_along_axis
on bincount
:
arr = np.array([[5, 4, -2, 1, -2, 0, 4, 4, -6, -1],
[0, 1, 2, 2, 3, 4, 5, 6, 7, 8]])
axis = 1
u, indices = np.unique(arr, return_inverse=True)
u[np.argmax(np.apply_along_axis(np.bincount, axis, indices.reshape(arr.shape),
None, np.max(indices) + 1), axis=axis)]
С вашими данными:
data = np.array([
[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[40, 40, 42, 43, 44],
[45, 46, 47, 48, 49],
[50, 51, 52, 53, 54],
[55, 56, 57, 58, 59]]])
axis = 0
u, indices = np.unique(arr, return_inverse=True)
u[np.argmax(np.apply_along_axis(np.bincount, axis, indices.reshape(arr.shape),
None, np.max(indices) + 1), axis=axis)]
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
NumPy 1.2, действительно? Вы можете приблизительно np.unique(return_inverse=True)
максимально эффективно использовать np.searchsorted
(это дополнительный O (n log n), поэтому не следует существенно изменять производительность):
u = np.unique(arr)
indices = np.searchsorted(u, arr.flat)
Ответ 2
Используйте функцию режима SciPy:
import numpy as np
from scipy.stats import mode
data = np.array([[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]],
[[40, 40, 42, 43, 44],
[45, 46, 47, 48, 49],
[50, 51, 52, 53, 54],
[55, 56, 57, 58, 59]]])
print data
# find mode along the zero-th axis; the return value is a tuple of the
# modes and their counts.
print mode(data, axis=0)
Ответ 3
flatten
, а затем создайте collections.Counter
. Как обычно, проявляйте особую осторожность при сравнении чисел с плавающей запятой.