R data.table Усечение битов? - программирование

Итак, я огромный фанат data.table в R. Я использую его почти все время, но столкнулся с ситуацией, в которой он не будет работать для меня вообще. У меня есть пакет (внутренний для моей компании), который использует R double для хранения значения беззнакового 64-битного целого числа, битовая последовательность которого соответствует некоторой фантазии кодирования. Этот пакет работает очень хорошо везде, кроме data.table. Я обнаружил, что если я агрегирую по столбцу этих данных, я потеряю большое количество моих уникальных значений. Мое единственное догадывание здесь в том, что data.table - усекающие биты в какой-то странной double оптимизации.

Может ли кто-нибудь подтвердить, что это так? Это просто ошибка?

Ниже показано воспроизведение проблемы и сравнение с пакетом, который я сейчас должен использовать, но вы хотите избежать страсти (dplyr).

Ответы

Ответ 1

Обновление: функция округления по умолчанию была удалена в текущей версии версии data.table(v1.9.7). См. Инструкции по установке для версии devel здесь.

Это также означает, что вы несете ответственность за понимание ограничений в представлении чисел с плавающей запятой и решении этой проблемы.

data.table существует уже давно. Мы использовали дело с ограничениями в представлениях с плавающей запятой, используя порог (например, base R, например, all.equal). Однако он просто не работает, поскольку он должен быть адаптивным в зависимости от того, насколько велики сравниваемые числа. Эта серия статей является отличным чтением по этой теме и другим потенциальным проблемам.

Это повторяющаяся проблема, потому что: а) люди не понимают ограничений, или б) пороговое значение действительно не помогло их проблеме, означало, что люди все спрашивали здесь или размещали на странице проекта.

В то время как мы повторно реализовали заказ data.table для быстрого упорядочивания радиуса, мы воспользовались возможностью, чтобы предоставить альтернативный способ устранения проблемы и предоставить выход, если это окажется нежелательным (экспорт setNumericRounding). С проблемой # 1642 заказ, вероятно, не требует округления удвоений (но это не так просто, так как порядок напрямую влияет на подмножества, основанные на бинарном поиске).

Фактическая проблема здесь заключается в группировке чисел с плавающей запятой, еще хуже, таких чисел, как в вашем случае. Это просто плохой выбор ИМХО.

Я могу думать о двух направлениях:

При группировке по столбцам, которые действительно удваиваются (в R, 1 является двойным, а не 1L, и эти случаи не имеют проблем), мы предоставляем предупреждение о том, что последние 2 байта округлены, и что люди должны читать ?setNumericRounding. А также предложите использовать bit64::integer64.
Удалите функциональность, позволяющую группировать операции по действительно двойным значениям или заставлять их фиксировать точность до определенных цифр, прежде чем продолжить. Я не могу думать о допустимой причине, по которой нужно было бы группировать числа с плавающей точкой действительно (хотелось бы услышать от людей, которые делают).

Что вряд ли произойдет, это возврат к проверкам на основе пороговых значений для определения того, какие двойники должны принадлежать к одной и той же группе.

Просто чтобы Q остался отвеченным, используйте setNumericRounding(0L).