Ответ 1
Попробуйте вызвать read_csv
с encoding='latin1'
, encoding='iso-8859-1'
или encoding='cp1252'
(это некоторые из различных кодировок, найденных в Windows).
Я пытаюсь прочитать CSV файл в Dataframe в Pandas. Когда я пытаюсь это сделать, я получаю следующую ошибку:
UnicodeDecodeError: кодек "utf-8" не может декодировать байт 0x96 в позиции 55: недопустимый стартовый байт
Это от кода:
import pandas as pd
location = r"C:\Users\khtad\Documents\test.csv"
df = pd.read_csv(location, header=0, quotechar='"')
Это делается на компьютере с пакетом обновления 1 (SP1) для Windows 7 Enterprise и, похоже, применяется к каждому файлу CSV, который я создаю. В этом конкретном случае двоичный код из местоположения 55 равен 00101001, а местоположение 54 равно 01110011, если это имеет значение.
Сохранение файла как UTF-8 с помощью текстового редактора тоже не помогает. Аналогично, добавление параметра "encoding = 'utf-8" тоже не работает - оно возвращает ту же ошибку.
Какова наиболее вероятная причина этой ошибки и есть ли какие-либо обходные пути, кроме отказа на конструкцию DataFrame на данный момент, и использование модуля csv для чтения в CSV по очереди?
Попробуйте вызвать read_csv
с encoding='latin1'
, encoding='iso-8859-1'
или encoding='cp1252'
(это некоторые из различных кодировок, найденных в Windows).
Это работает на Mac, и вы можете использовать
df= pd.read_csv('Region_count.csv',encoding ='latin1')