Эффективный способ округления чисел двойной точности до меньшей точности, заданной в количестве бит

В С# я хочу округлить удвоения до меньшей точности, чтобы я мог хранить их в ведрах разного размера в ассоциативном массиве. В отличие от обычного округления, я хочу округлить до нескольких значительных бит. Таким образом, большие числа будут меняться в абсолютном выражении гораздо больше, чем небольшие числа, но они будут иметь тенденцию к изменению одинаково пропорционально. Поэтому, если я хочу округлить до десяти двоичных цифр, я нахожу десять самых значащих бит и обнуляю все нижние биты, возможно добавляя небольшое число для округления.

Если бы это был целочисленный тип, здесь был бы возможный алгоритм:

Проблема заключается в поиске эффективного способа найти самый старший бит. Если бы я использовал целые числа, есть классные бит-хаки, чтобы найти MSB. Я не хочу называть Round (Log2 (x)), если могу помочь. Эта функция будет называться много миллионов раз.

Это код (измененный из того, что предоставил ответчик), когда я его использую:

Я получил это из алгоритма Деккера, благодаря другому респонденту. Он округляется до ближайшего значения, вместо того, чтобы усекать, как это делает предыдущий код, и использует только безопасный код:

Я проверил тест и обнаружил, что алгоритм Деккера лучше, чем ДВАЖДЫ так же быстро!

Ответы

Ответ 1

Алгоритм Деккерса разделит число с плавающей запятой на высокие и низкие части. Если в значении s есть бит s (53 в 64-разрядном двоичном коде IEEE 754), то *x0 получает биты с высоким s- b, которые вы запросили, а *x1 получает оставшиеся биты, которые вы можете отменить. В приведенном ниже коде Scale должно иметь значение 2 ^b. Если b известно во время компиляции, например, константу 43, вы можете заменить Scale на 0x1p43. В противном случае вы должны произвести 2 ^b в некотором роде.

Это требует от ближайшего к нему режима. Арифметика IEEE 754 достаточно, но другая разумная арифметика тоже может быть в порядке. Он округляет связи до уровня, который не является тем, что вы просили (связывает вверх). Это необходимо?

Это предполагает, что x * (Scale + 1) не переполняется. Операции должны оцениваться с двойной точностью (не более).

void Split(double *x0, double *x1, double x)
{
    double d = x * (Scale + 1);
    double t = d - x;
    *x0 = d - t;
    *x1 = x - *x0;
}

Ответ 2

Интересно... никогда не слышал о необходимости этого, но я думаю, что вы можете "сделать это" через какой-то фанковый небезопасный код...

void Main()
{
    // how many bits you want "saved"
    var maxBits = 20;

    // create a mask like 0x1111000 where # of 1 == maxBits
    var shift = (sizeof(int) * 8) - maxBits;
    var maxBitsMask = (0xffffffff >> shift) << shift;

    // some floats
    var floats = new []{ 1.04125f, 2.19412347f, 3.1415926f};
    foreach (var f in floats)
    {
        var localf = f;
        unsafe
        {
            // float -> fixed point (sorta)
            int toInt = *(int*)(&localf);
            // mask off your least-sig bits
            var modInt = toInt & maxBitsMask;
            // fixed point -> float (sorta)
            localf = *(float*)(&modInt);
        }
        Console.WriteLine("Was {0}, now {1}", f, localf);
    }
}

И с удвоениями:

void Main()
{
    var maxBits = 50;
    var shift = (sizeof(long) * 8) - maxBits;
    var maxBitsMask = (0xffffffffffffffff >> shift) << shift;
    var doubles = new []{ 1412.04125, 22.19412347, 3.1415926};
    foreach (var d in doubles)
    {
        var local = d;
        unsafe
        {
            var toLong = *(ulong*)(&local);
            var modLong = toLong & maxBitsMask;
            local = *(double*)(&modLong);
        }
        Console.WriteLine("Was {0}, now {1}", d, local);
    }
}

Все... Я не понял.:)

Для полноты здесь используется Jeppe "небезопасный" подход:

void Main()
{
    var maxBits = 50;
    var shift = (sizeof(long) * 8) - maxBits;
    var maxBitsMask = (long)((0xffffffffffffffff >> shift) << shift);
    var doubles = new []{ 1412.04125, 22.19412347, 3.1415926};
    foreach (var d in doubles)
    {
        var local = d;
        var asLong = BitConverter.DoubleToInt64Bits(d);
        var modLong = asLong & maxBitsMask;
        local = BitConverter.Int64BitsToDouble(modLong);
        Console.WriteLine("Was {0}, now {1}", d, local);
    }
}