Numpy ndarray hashability - программирование

У меня есть некоторые проблемы с пониманием того, как управляется хешируемость объектов numpy.

EDIT2: И, следуя комментарию deinonychusaur и пытаясь понять, если хеширование основано на контенте, я играл с numpy.nparray.dtype и имел то, что я нахожу довольно странным:

Я озадачен... есть ли какой-нибудь (тип независимый) механизм кеширования в numpy?

Ответы

Ответ 1

Я получаю те же результаты в Python 2.6.6 и numpy 1.3.0. Согласно глоссарию Python, объект должен быть хешируемым, если __hash__ определен (и не является None), и либо __eq__, либо __cmp__ определены. ndarray.__eq__ и ndarray.__hash__ определены и возвращают что-то значимое, поэтому я не понимаю, почему hash должен завершиться ошибкой. После быстрого google я нашел этот пост в списке рассылки python.scientific.devel, в котором говорится, что массивы никогда не предназначались для хэширования - так почему ndarray.__hash__ определяется, я понятия не имею. Обратите внимание, что isinstance(nparray, collections.Hashable) возвращает True.

EDIT: Обратите внимание, что nparray.__hash__() возвращает то же самое, что и id(nparray), так что это просто реализация по умолчанию. Возможно, было трудно или невозможно удалить реализацию __hash__ в более ранних версиях python (метод __hash__ = None, по-видимому, был введен в 2.6), поэтому они использовали какую-то магию API C для достижения этого способом, t распространяется на подклассы и не помешает вам явно вызывать ndarray.__hash__?

В Python 3.2.2 и текущем numpy 2.0.0 из репо. Метод __cmp__ больше не существует, поэтому теперь хеширование требует __hash__ и __eq__ (см. глоссарий Python 3). В этой версии numpy определяется ndarray.__hash__, но это просто None, поэтому не может быть вызвано. hash(nparray) не работает, а isinstance(nparray, collections.Hashable) возвращает False, как ожидалось. hash(vector) также не работает.

Ответ 2

Это не явный ответ, но вот какой путь отслеживать, чтобы понять это поведение.

Я имею в виду здесь код numpy версии 1.6.1.

В соответствии с реализацией объекта numpy.ndarray (смотрите, numpy/core/src/multiarray/arrayobject.c) метод hash установлен на NULL.

NPY_NO_EXPORT PyTypeObject PyArray_Type = {
#if defined(NPY_PY3K)
    PyVarObject_HEAD_INIT(NULL, 0)
#else
    PyObject_HEAD_INIT(NULL)
    0,                                          /* ob_size */
#endif
    "numpy.ndarray",                            /* tp_name */
    sizeof(PyArrayObject),                      /* tp_basicsize */
    &array_as_mapping,                          /* tp_as_mapping */
    (hashfunc)0,                                /* tp_hash */

Это свойство tp_hash кажется переопределенным в numpy/core/src/multiarray/multiarraymodule.c. См. DUAL_INHERIT, DUAL_INHERIT2 и initmultiarray, где изменяется атрибут tp_hash.

Пример: PyArrayDescr_Type.tp_hash = PyArray_DescrHash

Согласно hashdescr.c, хэш реализуется следующим образом:

* How does this work ? The hash is computed from a list which contains all the
* information specific to a type. The hard work is to build the list
* (_array_descr_walk). The list is built as follows:
*      * If the dtype is builtin (no fields, no subarray), then the list
*      contains 6 items which uniquely define one dtype (_array_descr_builtin)
*      * If the dtype is a compound array, one walk on each field. For each
*      field, we append title, names, offset to the final list used for
*      hashing, and then append the list recursively built for each
*      corresponding dtype (_array_descr_walk_fields)
*      * If the dtype is a subarray, one adds the shape tuple to the list, and
*      then append the list recursively built for each corresponding type
*      (_array_descr_walk_subarray)