Сравнение плавающих точек - программирование

Как я понимаю, в типичной системе есть четыре основные проблемы при сравнении чисел с плавающей запятой для равенства:

Этот ответ - ака. "подход Google" - кажется, популярен. Он справляется со всеми сложными делами. И это очень точно масштабирует сравнение, проверяя, находятся ли два значения в пределах фиксированного числа ULPs друг друга. Так, например, очень большое число сравнивает "почти равное" с бесконечностью.

Мне нужно что-то подобное, но с использованием стандартного С++ и обработки длинных удвоений. Под "стандартным", я имею в виду С++ 03, если это возможно, и С++ 11, если это необходимо.

Я утверждаю, что этот код (а) обрабатывает все соответствующие случаи, (б) выполняет то же самое, что и реализация Google для одно- и двухточечной обработки IEEE-754, и (в) является совершенно стандартным С++.

Одна или несколько из этих претензий почти наверняка ошибочны. Я соглашусь на любой ответ, который демонстрирует такое, желательно с исправлением. Хороший ответ должен включать один или несколько из:

Я намерен разместить нетривиальную награду по этому вопросу.

Ответы

Ответ 1

"Почти равно" не является хорошей функцией

4 не является подходящим значением: Ответ, который вы указываете на состояния "Следовательно, 4 должно быть достаточно для обычного использования", но не содержит оснований для этого требования. Фактически, существуют обычные ситуации, когда числа, рассчитанные в плавающей запятой различными способами, могут различаться многими ULP, даже если они будут равны, если рассчитывать по точной математике. Следовательно, для допуска не должно быть значения по умолчанию; каждый пользователь должен будет предоставить свои собственные, мы надеемся, основываясь на тщательном анализе их кода.

В качестве примера того, почему значение по умолчанию для 4 ULP является плохим, рассмотрим 1./49*49-1. Математически точный результат равен 0, но вычисленный результат (64-разрядный двоичный код IEEE 754) равен -0x1p-53, ошибка превышает 1e307 ULP точного результата и почти 1e16 ULP вычисленного результата.

Иногда значение не подходит: В некоторых случаях допуск не может быть относительным по отношению к сравниваемым значениям, ни к математически точной относительной толерантности, ни к квантованному допускам ULP. Например, почти каждое выходное значение в БПФ зависит почти от каждого входного значения, а ошибка в любом одном элементе связана с величиной других элементов. Подпрограмма "почти равных" должна быть снабжена дополнительным контекстом информацией о потенциальной ошибке.

"Почти равный" имеет плохие математические свойства:. Это показывает один из недостатков "почти равно": масштабирование изменяет результаты. Код ниже печатает 1 и 0.

double x0 = 1.1;
double x1 = 1.1 + 3*0x1p-52;
std::cout << almostEqual(x0, x1) << "\n";
x0 *= .8;
x1 *= .8;
std::cout << almostEqual(x0, x1) << "\n";

Другая неудача заключается в том, что она не транзитивна; almostEqual(a, b) и almostEqual(b, c) не означает almostEqual(a, c).

Ошибка в экстремальных случаях

almostEqual(1.f, 1.f/11, 0x745d17) неверно возвращает 1.

1.f/11 - 0x1.745d18p-4. Вычитая это из 1 (0x10p-4), получаем 0xe.8ba2e8p-4. Так как ULP 1 равно 0x1p-23, то есть 0xe.8ba2e8p19 ULP = 0xe8ba2e.8/2 ULP (сдвинутые 20 бит и деленные на 2, сетка 19 бит) = 0x745d17.4 ULP. Это превышает заданный допуск 0x745d17, поэтому правильный ответ будет равен 0.

Эта ошибка вызвана округлением в max_frac-scaled_min_frac.

Легко избавиться от этой проблемы - указать, что ulps должно быть меньше .5/limits::epsilon. Тогда округление происходит в max_frac-scaled_min_frac, только если разность (даже округленная) превышает ulps; если разность меньше, то вычитание является точным, по лемме Стербенца.

Было высказано предположение об использовании long double, чтобы исправить это. Однако long double не исправит это. Рассмотрим сравнение 1 и -0x1p-149f с установленными значениями ulps равными 1/пределам: epsilon. Если ваше значение не имеет 149 бит, результат вычитания округляется до 1, что меньше или равно 1/пределу:: epsilon ULP. Тем не менее математическая разница явно превышает 1.

Незначительное примечание

Выражение factor * limits::epsilon / 2 преобразует фактор в тип с плавающей точкой, что приводит к ошибкам округления для больших значений коэффициента, которые не являются точно представляемыми. Вероятно, подпрограмма не предназначена для использования с такими большими значениями (миллионы ULP в float), поэтому это должно быть указано как ограничение на рутину, а не на ошибку.

Ответ 2

Упрощение:. Вы можете избежать my_frexp, сначала отбросив не конечные случаи:

if( ! std::isfinite(a) || ! std::isfinite(b) )
    return a == b;

Кажется, что isfinite находится в С++ 11 по крайней мере

EDIT Однако, если намерение состоит в том, чтобы limits::infinity() в пределах 1 ulp limits::max()
то выше упрощения не выполняется, но не должно my_frexp() возвращать limits::max_exponent+1 в *exp, а не max_exponent + 2?

Ответ 3

БУДУЩЕЕ ПРОФИЛИРОВАНИЕ. Если вы когда-нибудь захотите расширить такое сравнение до десятичного поплавка http://en.wikipedia.org/wiki/Decimal64_floating-point_format в будущем, и предполагая, что ldexp() и frexp() будут обрабатывать такой тип с правильным основанием, тогда выражение striclty, 0.5 in return std::copysign(0.5, num); должно быть заменено на T(1)/limits::radix() - или std::ldexp(T(1),-1) или что-то в этом роде (я не смог найти удобная константа в std:: numeric_limits)

EDIT. Как заметил Немо, предположения, что ldexp и frexp будут использовать правильный FLOAT_RADIX, являются ложными, они придерживаются 2...

Итак, портативная версия Future Proof также должна использовать:

std::scalbn(x,n) вместо std::ldexp(x,n)
exp=std::ilogb(std::abs(x)),y=std::scalbn(x,-exp) вместо y=frexp(x,&exp)
теперь, когда выше y in является [1, FLOAT_RADIX) вместо [T (1)/Float_Radix, 1), верните copysign(T(1),num) вместо 0,5 для бесконечного случая my_frexp и проверьте вместо ulps*limits::epsilon() of ulps * epsilon()/2

Для этого также требуется стандарт >= С++ 11