Pandas Преобразовать 'NA' в NaN
Я только что подобрал Pandas, чтобы сделать некоторые работы по анализу данных в моем исследовании биологии. Оказывается, один из белков, который я анализирую, называется "NA".
У меня есть матрица с попарно "HA, M1, M2, NA, NP..." в заголовках столбцов и такая же, как "заголовки строк" (для биологов, которые могли бы это прочитать, я работаю с грипп).
Когда я импортирую данные в Pandas непосредственно из файла CSV, он читает "заголовки строк" как "HA, M1, M2...", а затем NA считывается как NaN. Есть ли способ остановить это? Заголовки столбцов в порядке: "HA, M1, M2, NA, NP и т.д."
Ответы
Ответ 1
Отключите обнаружение NaN таким образом: pd.read_csv(filename, keep_default_na=False)
Я изначально предложил na_filter=False
, который выполняет свою работу. Но, если я понимаю комментарии Джеффа ниже, это более чистое решение.
Пример:
In [1]: pd.read_csv('test')
Out[1]:[4]: pd.read_csv('test', keep_default_na=False)
Out[4]:1 2
2 3
Ответ 2
Просто столкнулся с этой проблемой - вместо этого я указал str-конвертер для столбца, поэтому я мог бы хранить в другом месте:
pd.read_csv(... , converters={ "file name": str, "company name": str})