Почему некоторые символы Юникода отображаются в матрицах, но не в кадрах данных в R?

По крайней мере в некоторых случаях азиатские символы печатаются, если они содержатся в matrix или vector, но не в data.frame. Вот пример

Очевидно, что мое устройство способно отображать символ, но когда оно находится в data.frame, оно не работает.

Сделав некоторое копание, я обнаружил, что функция print.data.frame выполняет format для каждого столбца. Оказывается, если вы запускаете format.default напрямую, возникает одна и та же проблема:

Копаем в format.default, я нахожу, что он вызывает внутренний format, написанный на C.

Прежде чем я буду копать дальше, я хочу знать, могут ли другие воспроизвести это поведение. Есть ли какая-то конфигурация R, которая позволила бы мне отображать эти символы в data.frame s?

Ответы

Ответ 1

Я ненавижу отвечать на свой вопрос, но, хотя комментарии и ответы помогли, они были не совсем правы. В Windows не похоже, что вы можете установить общий язык "UTF-8". Однако вы можете установить локальные страны, которые будут работать в этом случае:

Sys.setlocale("LC_CTYPE", locale="Chinese")
q2 # Works fine
#  q
#1 天

Но мне действительно интересно, почему именно format использует locale; Интересно, есть ли способ игнорировать локаль в Windows. Я также задаюсь вопросом, существует ли какой-то общий UTF-8 локаль, о котором я не знаю в Windows.

Ответ 2

Я просто писал о Unicode и R несколько дней назад. Я думаю, что ваш редактор R - это UTF-8, и это дает вам иллюзию, что R в вашей Windows обрабатывает символы UTF-8.

Короткий ответ - это когда вы хотите обработать Юникод (здесь, это китайский), не используйте английскую Windows, используйте китайскую версию Windows или Linux, которая по умолчанию является UTF-8.

Информация о сеансе в моем Ubuntu:

> sessionInfo()
R version 2.14.1 (2011-12-22)
Platform: i686-pc-linux-gnu (32-bit)

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C               LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8    LC_PAPER=C                 LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C             LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C