Ответ 1
Во-первых, вам необходимо рассмотреть аппаратное обеспечение, которое вы используете: производительность устройств GPU сильно отличается от конструктора к другому.
Во-вторых, это также зависит от рассмотренных операций: например, добавление может быть быстрее, чем умножает.
В моем случае я использую только устройства NVIDIA. Для такого оборудования: официальная документация объявляет эквивалентную производительность как для 32-битных целых чисел, так и для 32-битных одноточечных поплавков с новой архитектурой (Fermi). Предыдущая архитектура (Tesla), используемая для обеспечения эквивалентной производительности для 32-битных целых чисел и поплавков, но только при рассмотрении добавлений и логических операций.
Но еще раз это может быть неверным в зависимости от используемого устройства и инструкций.