двойные кавычки в csv can not read with pandas

У меня есть входной файл, где каждое значение сохраняется как строка. Он находится внутри файла csv с каждой записью внутри двойных кавычек.

Пример файла:

"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"

Есть только шесть столбцов. Какие параметры мне нужно ввести в pandas read_csv, чтобы прочитать это правильно?

В настоящее время я пытаюсь:

import pandas as pd
df = pd.read_csv(file, quotechar='"')

но это дает мне сообщение об ошибке: CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14 CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14

Очевидно, это означает, что он игнорирует "" и анализирует каждую запятую как поле. Однако для строки 3 столбцы с 3 по 6 должны быть строками с запятыми в них ("1,2,3", "PR, SD, SD "," PR, SD, SD "," PR, SD, SD ")

Как мне получить pandas.read_csv, чтобы проанализировать это правильно?

Благодарю.

Ответы

Ответ 1

Это сработает. Он возвращается к парсеру python (поскольку у вас есть нерегулярные разделители, например, они являются запятой, а иногда и пространством). Если у вас есть только запятые, он будет использовать c-parser и будет намного быстрее.

In [1]: import csv

In [2]: !cat test.csv
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"

In [3]: pd.read_csv('test.csv',sep=',\s+',quoting=csv.QUOTE_ALL)
pandas/io/parsers.py:637: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators; you can avoid this warning by specifying engine='python'.
  ParserWarning)
Out[3]: 
     "column1","column2" "column3"   "column4"   "column5"   "column6"
"AM"                "07"       "1"        "SD"        "SD"        "CR"
"AM"                "08"   "1,2,3"  "PR,SD,SD"  "PR,SD,SD"  "PR,SD,SD"
"AM"                "01"       "2"        "SD"        "SD"        "SD"