Как узнать размер байтов объекта python, например массивы и словари? - Простой способ
Я искал простой способ узнать размер байтов массивов и словарей, например
[ [1,2,3], [4,5,6] ] or { 1:{2:2} }
Многие темы говорят использовать pylab, например:
from pylab import *
A = array( [ [1,2,3], [4,5,6] ] )
A.nbytes
24
Но как насчет словарей?
Я видел много ответов, предлагающих использовать pysize или heapy. Легкий ответ дается Torsten Marek по этой ссылке: Какой профилер памяти Python рекомендуется?, но у меня нет четкой интерпретации вывода, потому что количество байтов не соответствует.
Pysize кажется более сложным, и у меня нет четкого представления о том, как его использовать.
Учитывая простоту вычисления размера, который я хочу выполнить (без классов или сложных структур), любая идея о простом способе получения приблизительной оценки использования памяти такого рода объектов?
С уважением.
Ответы
Ответ 1
Там же:
>>> import sys
>>> sys.getsizeof([1,2, 3])
96
>>> a = []
>>> sys.getsizeof(a)
72
>>> a = [1]
>>> sys.getsizeof(a)
80
Но я бы не сказал, что это надежный, поскольку у Python есть накладные расходы для каждого объекта, и есть объекты, которые не содержат ничего, кроме ссылок на другие объекты, поэтому он не совсем то же, что на C и других языках.
Прочитайте документы sys.getsizeof и идите оттуда, я думаю.
Ответ 2
немного поздно для вечеринки, но простой способ получить размер dict - сначала рассортировать его.
Использование sys.getsizeof для объекта python (включая словарь) может быть неточным, поскольку оно не засчитывает объекты, на которые ссылаются.
Способом его обработки является сериализация его в строку и использование sys.getsizeof в строке. Результат будет намного ближе к тому, что вы хотите.
import cPickle
mydict = {'key1':'some long string, 'key2':[some, list], 'key3': whatever other data}
Выполнение sys.getsizeof(mydict) не является точным, поэтому сначала соберите его
mydict_as_string = cPickle.dumps(mydict)
теперь мы можем знать, сколько места занимает пространство
print sys.getsizeof(mydict_as_string)
Ответ 3
Ни один из ответов здесь не является действительно общим.
Следующее решение будет работать с любым типом объектов рекурсивно, без необходимости в дорогой рекурсивной реализации:
import gc
import sys
def get_obj_size(obj):
marked = {id(obj)}
obj_q = [obj]
sz = 0
while obj_q:
sz += sum(map(sys.getsizeof, obj_q))
# Lookup all the object referred to by the object in obj_q.
# See: https://docs.python.org/3.7/library/gc.html#gc.get_referents
all_refr = ((id(o), o) for o in gc.get_referents(*obj_q))
# Filter object that are already marked.
# Using dict notation will prevent repeated objects.
new_refr = {o_id: o for o_id, o in all_refr if o_id not in marked and not isinstance(o, type)}
# The new obj_q will be the ones that were not marked,
# and we will update marked with their ids so we will
# not traverse them again.
obj_q = new_refr.values()
marked.update(new_refr.keys())
return sz
Например:
>>> import numpy as np
>>> x = np.random.rand(1024).astype(np.float64)
>>> y = np.random.rand(1024).astype(np.float64)
>>> a = {'x': x, 'y': y}
>>> get_obj_size(a)
16816
См. Мой репозиторий для получения дополнительной информации или просто установите мой пакет (objsize):
$ pip install objsize
Затем:
>>> from objsize import get_deep_size
>>> get_deep_size(a)
16816
Ответ 4
Используйте этот рецепт, взятый отсюда:
http://code.activestate.com/recipes/577504-compute-memory-footprint-of-an-object-and-its-cont/
from __future__ import print_function
from sys import getsizeof, stderr
from itertools import chain
from collections import deque
try:
from reprlib import repr
except ImportError:
pass
def total_size(o, handlers={}, verbose=False):
""" Returns the approximate memory footprint an object and all of its contents.
Automatically finds the contents of the following builtin containers and
their subclasses: tuple, list, deque, dict, set and frozenset.
To search other containers, add handlers to iterate over their contents:
handlers = {SomeContainerClass: iter,
OtherContainerClass: OtherContainerClass.get_elements}
"""
dict_handler = lambda d: chain.from_iterable(d.items())
all_handlers = {tuple: iter,
list: iter,
deque: iter,
dict: dict_handler,
set: iter,
frozenset: iter,
}
all_handlers.update(handlers) # user handlers take precedence
seen = set() # track which object id have already been seen
default_size = getsizeof(0) # estimate sizeof object without __sizeof__
def sizeof(o):
if id(o) in seen: # do not double count the same object
return 0
seen.add(id(o))
s = getsizeof(o, default_size)
if verbose:
print(s, type(o), repr(o), file=stderr)
for typ, handler in all_handlers.items():
if isinstance(o, typ):
s += sum(map(sizeof, handler(o)))
break
return s
return sizeof(o)
##### Example call #####
if __name__ == '__main__':
d = dict(a=1, b=2, c=3, d=[4,5,6,7], e='a string of chars')
print(total_size(d, verbose=True))