Группируйте и суммируйте значения списка словарей в Python

Я пытаюсь написать функцию элегантным способом, который сгруппирует список словарей и агрегирует (суммирует) значения подобных ключей.

Я попытался сделать это, используя itertools для groupby и суммируя каждую пару значений типа "один ключ", но здесь что-то не хватает. Вот как выглядит моя функция:

Ответы

Ответ 1

Вы можете использовать collections.Counter и collections.defaultdict.

Использование dict это можно сделать в O(N), а для сортировки требуется время O(NlogN).

from collections import defaultdict, Counter
def solve(dataset, group_by_key, sum_value_keys):
    dic = defaultdict(Counter)
    for item in dataset:
        key = item[group_by_key]
        vals = {k:item[k] for k in sum_value_keys}
        dic[key].update(vals)
    return dic
... 
>>> d = solve(my_dataset, 'date', ['value1', 'value2'])
>>> d
defaultdict(<class 'collections.Counter'>,
{
 datetime.date(2013, 1, 2): Counter({'value2': 10, 'value1': 10}),
 datetime.date(2013, 1, 1): Counter({'value2': 20, 'value1': 20})
})

Преимущество Counter заключается в том, что он автоматически суммирует значения похожих ключей.:

Пример:

>>> c = Counter(**{'value1': 10, 'value2': 5})
>>> c.update({'value1': 7, 'value2': 3})
>>> c
Counter({'value1': 17, 'value2': 8})

Ответ 2

Спасибо, я забыл о Counter. Я все еще хотел сохранить выходной формат и сортировку моего возвращаемого набора данных, поэтому вот как выглядит моя последняя функция:

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys):

    container = defaultdict(Counter)

    for item in dataset:
        key = item[group_by_key]
        values = {k:item[k] for k in sum_value_keys}
        container[key].update(values)

    new_dataset = [
        dict([(group_by_key, item[0])] + item[1].items())
            for item in container.items()
    ]
    new_dataset.sort(key=lambda item: item[group_by_key])

    return new_dataset