Выбор нескольких фрагментов из массива numpy сразу
Я ищу способ выбора нескольких фрагментов из массива numpy сразу. Скажем, у нас есть 1D-массив данных и вы хотите извлечь три его части, как показано ниже:
data_extractions = []
for start_index in range(0, 3):
data_extractions.append(data[start_index: start_index + 5])
Впоследствии data_extractions
будет:
data_extractions = [
data[0:5],
data[1:6],
data[2:7]
]
Есть ли способ выполнить вышеописанную операцию без цикла for? Некоторая схема индексирования в numpy, которая позволила бы мне выбрать несколько срезов из массива и вернуть их как многие массивы, скажем, в n + 1-мерном массиве?
Я подумал, что, возможно, я могу реплицировать свои данные, а затем выбрать диапазон из каждой строки, но код ниже вызывает IndexError
replicated_data = np.vstack([data] * 3)
data_extractions = replicated_data[[range(3)], [slice(0, 5), slice(1, 6), slice(2, 7)]
Ответы
Ответ 1
Вы можете использовать индексы, чтобы выбрать нужные строки в соответствующую форму.
Например:
data = np.random.normal(size=(100,2,2,2))
# Creating an array of row-indexes
indexes = np.array([np.arange(0,5), np.arange(1,6), np.arange(2,7)])
# data[indexes] will return an element of shape (3,5,2,2,2). Converting
# to list happens along axis 0
data_extractions = list(data[indexes])
np.all(data_extractions[1] == s[1:6])
True
Ответ 2
В этом посте описан подход с strided-indexing scheme
, использующий np.lib.stride_tricks.as_strided
, который в основном создает представление во входном массиве и, как таковой, довольно эффективен для создания, а представление занимает незначительное пространство памяти.
Кроме того, это работает для ndarrays с общим числом измерений.
Здесь реализация -
def strided_axis0(a, L):
# Store the shape and strides info
shp = a.shape
s = a.strides
# Compute length of output array along the first axis
nd0 = shp[0]-L+1
# Setup shape and strides for use with np.lib.stride_tricks.as_strided
# and get (n+1) dim output array
shp_in = (nd0,L)+shp[1:]
strd_in = (s[0],) + s
return np.lib.stride_tricks.as_strided(a, shape=shp_in, strides=strd_in)
Пример запуска для массива 4D
-
In [44]: a = np.random.randint(11,99,(10,4,2,3)) # Array
In [45]: L = 5 # Window length along the first axis
In [46]: out = strided_axis0(a, L)
In [47]: np.allclose(a[0:L], out[0]) # Verify outputs
Out[47]: True
In [48]: np.allclose(a[1:L+1], out[1])
Out[48]: True
In [49]: np.allclose(a[2:L+2], out[2])
Out[49]: True
Ответ 3
stride_tricks
может сделать это
a = np.arange(10)
b = np.lib.stride_tricks.as_strided(a, (3, 5), 2 * a.strides)
b
# array([[0, 1, 2, 3, 4],
# [1, 2, 3, 4, 5],
# [2, 3, 4, 5, 6]])
Обратите внимание, что b
ссылается на ту же память, что и a
, на самом деле несколько раз (например, b[0, 1]
и b[1, 0]
- одинаковый адрес памяти). Поэтому лучше всего сделать копию перед началом работы с новой структурой.
nd можно сделать аналогичным образом, например 2d → 4d
a = np.arange(16).reshape(4, 4)
b = np.lib.stride_tricks.as_strided(a, (3,3,2,2), 2*a.strides)
b.reshape(9,2,2) # this forces a copy
# array([[[ 0, 1],
# [ 4, 5]],
# [[ 1, 2],
# [ 5, 6]],
# [[ 2, 3],
# [ 6, 7]],
# [[ 4, 5],
# [ 8, 9]],
# [[ 5, 6],
# [ 9, 10]],
# [[ 6, 7],
# [10, 11]],
# [[ 8, 9],
# [12, 13]],
# [[ 9, 10],
# [13, 14]],
# [[10, 11],
# [14, 15]]])
Ответ 4
Вы можете нарезать массив массивом с готовым срезом
a = np.array(list('abcdefg'))
b = np.array([
[0, 1, 2, 3, 4],
[1, 2, 3, 4, 5],
[2, 3, 4, 5, 6]
])
a[b]
Однако b
не должен генерироваться вручную таким образом. Он может быть более динамичным с помощью
b = np.arange(5) + np.arange(3)[:, None]
Ответ 5
В общем случае вам нужно выполнить какую-то итерацию - и конкатенацию - либо при построении индексов, либо при сборе результатов. Это происходит только тогда, когда шаблон среза сам по себе является регулярным, что вы можете использовать обобщенную нарезку через as_strided
.
Принятый ответ создает массив индексирования, по одной строке на срез. Итак, это итерация по срезам, а arange
сама является (быстрой) итерацией. И np.array
объединяет их на новой оси (np.stack
обобщает это).
In [264]: np.array([np.arange(0,5), np.arange(1,6), np.arange(2,7)])
Out[264]:
array([[0, 1, 2, 3, 4],
[1, 2, 3, 4, 5],
[2, 3, 4, 5, 6]])
indexing_tricks
удобные методы, чтобы сделать то же самое:
In [265]: np.r_[0:5, 1:6, 2:7]
Out[265]: array([0, 1, 2, 3, 4, 1, 2, 3, 4, 5, 2, 3, 4, 5, 6])
Это принимает нотацию нарезки, расширяет ее с помощью arange
и объединяет. Это даже позволяет мне расширяться и объединяться в 2d
In [269]: np.r_['0,2',0:5, 1:6, 2:7]
Out[269]:
array([[0, 1, 2, 3, 4],
[1, 2, 3, 4, 5],
[2, 3, 4, 5, 6]])
In [270]: data=np.array(list('abcdefghijk'))
In [272]: data[np.r_['0,2',0:5, 1:6, 2:7]]
Out[272]:
array([['a', 'b', 'c', 'd', 'e'],
['b', 'c', 'd', 'e', 'f'],
['c', 'd', 'e', 'f', 'g']],
dtype='<U1')
In [273]: data[np.r_[0:5, 1:6, 2:7]]
Out[273]:
array(['a', 'b', 'c', 'd', 'e', 'b', 'c', 'd', 'e', 'f', 'c', 'd', 'e',
'f', 'g'],
dtype='<U1')
Конкатенация результатов после индексирования также работает.
In [274]: np.stack([data[0:5],data[1:6],data[2:7]])
Моя память из других вопросов SO заключается в том, что относительные тайминги находятся в одном порядке. Он может варьироваться, например, с количеством срезов в зависимости от их длины. В целом количество значений, которые должны быть скопированы из источника в цель, будет одинаковым.
Если срезы различаются по длине, вам придется использовать плоскую индексацию.
Ответ 6
Мы можем использовать представление списка для этого
data=np.array([1,2,3,4,5,6,7,8,9,10])
data_extractions=[data[b:b+5] for b in [1,2,3,4,5]]
data_extractions
Результаты
[array([2, 3, 4, 5, 6]), array([3, 4, 5, 6, 7]), array([4, 5, 6, 7, 8]), array([5, 6, 7, 8, 9]), array([ 6, 7, 8, 9, 10])]