pandas.io.json.json_normalize с очень вложенным json

Я пытаюсь normalize очень вложенный json файл, который позже проанализирую. То, с чем я борюсь, - это то, как пройти более одного уровня, чтобы нормализовать.

Я просмотрел документацию pandas.io.json.json_normalize, так как он делает именно то, что я хочу.

Я смог нормализовать его часть и теперь понимаю, как работают словари, но меня все еще нет.

С приведенным ниже кодом я могу получить только первый уровень.

import json import pandas as pd from pandas.io.json import json_normalize with open('authors_sample.json') as f: d = json.load(f) raw = json_normalize(d['hits']['hits']) authors = json_normalize(data = d['hits']['hits'], record_path = '_source', meta = ['_id', ['_source', 'journal'], ['_source', 'title'], ['_source', 'normalized_venue_name'] ])

Я пытаюсь "копаться" в словаре "авторов" с помощью кода ниже, но record_path = ['_source', 'authors'] бросает мне TypeError: string indices must be integers. Насколько я понимаю json_normalize логика должна быть хорошей, но я до сих пор не совсем понимаю, как погрузиться в json с dict vs list.

Я даже прошел этот простой пример.

authors = json_normalize(data = d['hits']['hits'], record_path = ['_source', 'authors'], meta = ['_id', ['_source', 'journal'], ['_source', 'title'], ['_source', 'normalized_venue_name'] ])

Ниже приведен фрагмент json файла (5 записей).

{u'_shards': {u'failed': 0, u'successful': 5, u'total': 5}, u'hits': {u'hits': [{u'_id': u'7CB3F2AD', u'_index': u'scibase_listings', u'_score': 1.0, u'_source': {u'authors': None, u'deleted': 0, u'description': None, u'doi': u'', u'is_valid': 1, u'issue': None, u'journal': u'Physical Review Letters', u'link': None, u'meta_description': None, u'meta_keywords': None, u'normalized_venue_name': u'phys rev lett', u'pages': None, u'parent_keywords': [u'Chromatography', u'Quantum mechanics', u'Particle physics', u'Quantum field theory', u'Analytical chemistry', u'Quantum chromodynamics', u'Physics', u'Mass spectrometry', u'Chemistry'], u'pub_date': u'1987-03-02 00:00:00', u'pubtype': None, u'rating_avg_weighted': 0, u'rating_clarity': 0.0, u'rating_clarity_weighted': 0.0, u'rating_innovation': 0.0, u'rating_innovation_weighted': 0.0, u'rating_num_weighted': 0, u'rating_reproducability': 0, u'rating_reproducibility_weighted': 0.0, u'rating_versatility': 0.0, u'rating_versatility_weighted': 0.0, u'review_count': 0, u'tag': [u'mass spectra', u'elementary particles', u'bound states'], u'title': u'Evidence for a new meson: A quasinuclear NN-bar bound state', u'userAvg': 0.0, u'user_id': None, u'venue_name': u'Physical Review Letters', u'views_count': 0, u'volume': None}, u'_type': u'listing'}, {u'_id': u'7AF8EBC3', u'_index': u'scibase_listings', u'_score': 1.0, u'_source': {u'authors': [{u'affiliations': [u'Punjabi University'], u'author_id': u'780E3459', u'author_name': u'munish puri'}, {u'affiliations': [u'Punjabi University'], u'author_id': u'48D92C79', u'author_name': u'rajesh dhaliwal'}, {u'affiliations': [u'Punjabi University'], u'author_id': u'7D9BD37C', u'author_name': u'r s singh'}], u'deleted': 0, u'description': None, u'doi': u'', u'is_valid': 1, u'issue': None, u'journal': u'Journal of Industrial Microbiology & Biotechnology', u'link': None, u'meta_description': None, u'meta_keywords': None, u'normalized_venue_name': u'j ind microbiol biotechnol', u'pages': None, u'parent_keywords': [u'Nuclear medicine', u'Psychology', u'Hydrology', u'Chromatography', u'X-ray crystallography', u'Nuclear fusion', u'Medicine', u'Fluid dynamics', u'Thermodynamics', u'Physics', u'Gas chromatography', u'Radiobiology', u'Engineering', u'Organic chemistry', u'High-performance liquid chromatography', u'Chemistry', u'Organic synthesis', u'Psychotherapist'], u'pub_date': u'2008-04-04 00:00:00', u'pubtype': None, u'rating_avg_weighted': 0, u'rating_clarity': 0.0, u'rating_clarity_weighted': 0.0, u'rating_innovation': 0.0, u'rating_innovation_weighted': 0.0, u'rating_num_weighted': 0, u'rating_reproducability': 0, u'rating_reproducibility_weighted': 0.0, u'rating_versatility': 0.0, u'rating_versatility_weighted': 0.0, u'review_count': 0, u'tag': [u'flow rate', u'operant conditioning', u'packed bed reactor', u'immobilized enzyme', u'specific activity'], u'title': u'Development of a stable continuous flow immobilized enzyme reactor for the hydrolysis of inulin', u'userAvg': 0.0, u'user_id': None, u'venue_name': u'Journal of Industrial Microbiology & Biotechnology', u'views_count': 0, u'volume': None}, u'_type': u'listing'}, {u'_id': u'7521A721', u'_index': u'scibase_listings', u'_score': 1.0, u'_source': {u'authors': [{u'author_id': u'7FF872BC', u'author_name': u'barbara eileen ryan'}], u'deleted': 0, u'description': None, u'doi': u'', u'is_valid': 1, u'issue': None, u'journal': u'The American Historical Review', u'link': None, u'meta_description': None, u'meta_keywords': None, u'normalized_venue_name': u'american historical review', u'pages': None, u'parent_keywords': [u'Social science', u'Politics', u'Sociology', u'Law'], u'pub_date': u'1992-01-01 00:00:00', u'pubtype': None, u'rating_avg_weighted': 0, u'rating_clarity': 0.0, u'rating_clarity_weighted': 0.0, u'rating_innovation': 0.0, u'rating_innovation_weighted': 0.0, u'rating_num_weighted': 0, u'rating_reproducability': 0, u'rating_reproducibility_weighted': 0.0, u'rating_versatility': 0.0, u'rating_versatility_weighted': 0.0, u'review_count': 0, u'tag': [u'social movements'], u'title': u"Feminism and the women movement : dynamics of change in social movement ideology, and activism", u'userAvg': 0.0, u'user_id': None, u'venue_name': u'The American Historical Review', u'views_count': 0, u'volume': None}, u'_type': u'listing'}, {u'_id': u'7DAEB9A4', u'_index': u'scibase_listings', u'_score': 1.0, u'_source': {u'authors': [{u'author_id': u'0299B8E9', u'author_name': u'fraser j harbutt'}], u'deleted': 0, u'description': None, u'doi': u'', u'is_valid': 1, u'issue': None, u'journal': u'The American Historical Review', u'link': None, u'meta_description': None, u'meta_keywords': None, u'normalized_venue_name': u'american historical review', u'pages': None, u'parent_keywords': [u'Superconductivity', u'Nuclear fusion', u'Geology', u'Chemistry', u'Metallurgy'], u'pub_date': u'1988-01-01 00:00:00', u'pubtype': None, u'rating_avg_weighted': 0, u'rating_clarity': 0.0, u'rating_clarity_weighted': 0.0, u'rating_innovation': 0.0, u'rating_innovation_weighted': 0.0, u'rating_num_weighted': 0, u'rating_reproducability': 0, u'rating_reproducibility_weighted': 0.0, u'rating_versatility': 0.0, u'rating_versatility_weighted': 0.0, u'review_count': 0, u'tag': [u'iron'], u'title': u'The iron curtain : Churchill, America, and the origins of the Cold War', u'userAvg': 0.0, u'user_id': None, u'venue_name': u'The American Historical Review', u'views_count': 0, u'volume': None}, u'_type': u'listing'}, {u'_id': u'7B3236C5', u'_index': u'scibase_listings', u'_score': 1.0, u'_source': {u'authors': [{u'author_id': u'7DAB7B72', u'author_name': u'richard m freeland'}], u'deleted': 0, u'description': None, u'doi': u'', u'is_valid': 1, u'issue': None, u'journal': u'The American Historical Review', u'link': None, u'meta_description': None, u'meta_keywords': None, u'normalized_venue_name': u'american historical review', u'pages': None, u'parent_keywords': [u'Political Science', u'Economics'], u'pub_date': u'1985-01-01 00:00:00', u'pubtype': None, u'rating_avg_weighted': 0, u'rating_clarity': 0.0, u'rating_clarity_weighted': 0.0, u'rating_innovation': 0.0, u'rating_innovation_weighted': 0.0, u'rating_num_weighted': 0, u'rating_reproducability': 0, u'rating_reproducibility_weighted': 0.0, u'rating_versatility': 0.0, u'rating_versatility_weighted': 0.0, u'review_count': 0, u'tag': [u'foreign policy'], u'title': u'The Truman Doctrine and the origins of McCarthyism : foreign policy, domestic politics, and internal security, 1946-1948', u'userAvg': 0.0, u'user_id': None, u'venue_name': u'The American Historical Review', u'views_count': 0, u'volume': None}, u'_type': u'listing'}], u'max_score': 1.0, u'total': 36429433}, u'timed_out': False, u'took': 170}

Ответы

Ответ 1

В примере pandas (ниже), что означают скобки? Есть ли логика, которой нужно следовать, чтобы углубиться в [].

Каждый элемент в ['state', 'shortname', ['info', 'governor']] - это путь к элементу, который должен включать, помимо выбранных строк. Аргумент 'counties' устанавливает, какие строки должны быть созданы, а второй аргумент добавляет метаданные, которые будут включены в эти строки.

Каждый из них - это путь, список - это вложенная структура. В выводе примера вы видите соответствующие значения в shortname state, shortname и info.governor.

В вашем примере JSON имеется несколько вложенных списков для подстановки с первым аргументом, например, 'counties' в примере. Единственный пример в этой структуре данных - это вложенный 'authors' ключ; вам нужно будет извлечь каждый ['_source', 'authors'], после чего вы можете добавить другие ключи из родительского объекта для увеличения этих строк:

>>> json_normalize(raw, [['_source', 'authors']], ['_id', ['_source', 'journal'], ['_source', 'title']])
                      affiliations author_id          author_name       _id  \
0                              NaN  166468F4  a bowdoin van riper  7FDFEB02
1                              NaN  81070854   jeffrey h schwartz  7FDFEB02
2  [Pennsylvania State University]  7E15BDFA       roger l geiger  7538108B

                  _source.journal  \
0  The American Historical Review
1  The American Historical Review
2  The American Historical Review

                                       _source.title
0  Men Among the Mammoths: Victorian Science and ...
1  Men Among the Mammoths: Victorian Science and ...
2  Elizabeth Popp Berman. Creating the Market Uni...

Таким образом, это кадр данных авторов, с добавлением метаданных для каждого автора (значение _id, название журнала и заголовок статьи).

Обратите внимание на путь для первого аргумента; если вы хотите указать вложенный путь, вам необходимо предоставить список путей (даже если это всего лишь один путь); просто ['_source', 'authors'] будет искать два источника строк, каждое из которых является простым именем верхнего уровня.

Второй аргумент затем извлекает ключ _id из внешнего объекта, но имя заголовка и журнала - это пути list, так как они также вложены.

Ответ 2

Вы также можете взглянуть на библиотеку flatten_json, которая не требует написания иерархий столбцов, как в json_normalize:

from flatten_json import flatten

data = d['hits']['hits']
dict_flattened = (flatten(record, '.') for record in data)
df = pd.DataFrame(dict_flattened)
print(df)

Смотрите https://github.com/amirziai/flatten.