Фиксация кодировок - программирование

Я закончил с испорченными символьными кодировками в одном из наших столбцов mysql.

Довольно уверен, что кто-то здесь узнает, что произошло и как исправить.

UPDATE: Основанный на ответе bobince, и поскольку у меня были эти данные в файле, я сделал следующее

UPDATE2: Hammerite, просто для полноты здесь запрошенные детали...

SHOW CREATE TABLE для таблицы, в которую я импортирую, имеет DEFAULT CHARSET=utf8

Собственно, с приведенными выше настройками load не выполнил (я не смог сравнить с существующими полями utf8, и мои загруженные данные выглядели так, как если бы они были загружены правильно, я предполагаю из-за неправильного, но сопоставления клиентских, соединений и результатов), поэтому я обновил настройки до:

загруженные данные снова, а затем, наконец, я правильно загрузил данные (сопоставимые с существующими данными).

Ответы

Ответ 1

Ваш текст был закодирован в UTF-8, а затем повторно декодирован, ошибочно, как Mac Roman.

Вы не сможете исправить это в базе данных, так как MySQL не знает кодировку Mac Roman. Вы можете написать script, чтобы пройти каждую строку каждой затронутой таблицы и исправить текст, изменив цикл кодирования/декодирования. Python - это возможность, имеющая хороший диапазон кодировок:

>>> print u'√©'.encode('macroman').decode('utf-8')
é
>>> print u'√∂'.encode('macroman').decode('utf-8')
ö
>>> print u'√≠'.encode('macroman').decode('utf-8')
í

В качестве альтернативы, если не существует содержимого, отличного от ASCII, которое не подвержено этой проблеме, вы можете попробовать использовать mysqladmin для экспорта дампа SQL, а затем преобразовать его все сразу, либо используя script, как указано выше, или, если у вас есть текстовый редактор (предположительно на Mac), который может это сделать, загрузив script в качестве UTF-8, а затем сохраните его как Mac Roman. Наконец, повторно импортируйте дамп, используя mysql < dump.sql.