Float to double conversion: почему так много инструкций?

Мне любопытно, может ли кто-нибудь пролить свет на это для меня. Я работаю над некоторыми числами преобразования данных, и у меня есть несколько функций, которые выполняют преобразования данных, которые я определяю с помощью двух макросов:

Я получаю хороший крошечный кусочек сборки с -O3 на:

Однако, когда я определяю функцию float- > double (или double- > float):

Может ли кто-нибудь пролить свет на то, что происходит под капотом здесь для двойного преобразования float? И, возможно, как это могло бы быть написано, чтобы получить более эффективную сборку? Я использую gcc 4.6.3, если это имеет значение.

Ответы

Ответ 1

Здесь происходит несколько вещей, которые я могу видеть быстро (код немного длинный, время немного запоздало, и я не являюсь поклонником синтаксиса AT & T).

Во-первых, второй цикл был векторизован (но плохо, см. ниже). Это по своей сути вызывает раздувание кода - теперь ему приходится иметь дело с "хвостом", который короче, чем вектор и т.д.

Во-вторых, float to double является расширяющимся преобразованием. Это не имеет значения для скаляров, но с векторами, что означает, что вы не можете просто читать некоторые данные, преобразовывать их и записывать обратно - где-то вдоль строк вы получите вдвое большее количество байтов, и они должны быть обработаны с. (следовательно, movhlps %xmm0,%xmm1)

Фактический цикл охватывает только от 402098h до 4020cfh, ниже - "обработка хвоста", а выше это чудовище, которое проверяет, имеет ли он пропустить основной цикл полностью и некоторые вещи, которые я не совсем понял - было бы разумно, если бы это было для выравнивания, но я не вижу там никакого test rdi, 15, и ничего очевидного, что бы избавиться от неустановленного начала.

И, в-третьих, GCC хромает. Это не редкость. Кажется, что xmm3 каким-то образом задействован, чего нет, и, похоже, он забыл, что векторы могут быть загружены в память из одной части - тогда это может быть потому, что чудовище в начале действительно не было тест для выравнивания, и это его защита от неустановленных указателей. В любом случае, GCC сделал плохую работу здесь.

Ответ 2

То, что вы называете "monstrosity", на самом деле выглядит как автоматически векторизованный код. Что-то вроде 20-летнего исследования перешло к этой технике, прежде чем оно начало хорошо работать и быть полезным в компиляторах общего назначения.

Возможно, это некрасиво, но разработчики GCC считают, что это будет быстрее для длинных массивов. Если ваши массивы на самом деле не длинны, или если вы не можете нести идею скомпилированного кода, выглядящего так, отключите эту конкретную оптимизацию. Компиляция с помощью -O2 должна делать это (не проверено).