Эффективное вычисление индекса с использованием метапрограмм

Учитывая многомерный массив с формой [A][B][C][D], но сохраненный как 1-мерный массив с длиной [A*B*C*D]. Я хочу использовать метапрограммирование шаблонов для упрощения вычисления индекса. Индекс (a,b,c,d) должен находиться в позиции

cin предназначен только для обеспечения значений времени выполнения. Проверка сборки g++ -O2 -S ../main.cpp -std=c++11 дает

для части (a*B*C*D + b*C*D + c*D + d). Это то, чего я ожидал от компилятора. Но для индексного класса он производит еще несколько операций:

и не получает оптимизацию B*C*D=105. Есть ли способ получить подобную сборку? Я хотел бы обернуть некоторый код CUDA, поэтому он действительно должен быть идентичным кодом (в С++ 11). Чтобы быть ясным, во время компиляции известно только количество осей. Или любые другие способы написать это?

edit. Хотя я уже убежден, что он имеет такую же эффективность, я бы хотел получить еще одну сборку: https://godbolt.org/g/RHwBV6

Ответы

Ответ 1

Да, можно получить идентичную сборку (proof). Я прибыл туда путем "вычисления" шагов для каждого измерения в конструкторе объекта индекса и "инициализации" нестатического элемента данных массива.

template<size_t Nd>
struct Index {
  static_assert(Nd >= 1, "");
  size_t extents_[Nd];
  size_t pitches_[Nd];
 public:
  template<class... Ts>
  constexpr Index(size_t e0, Ts... es) noexcept
    : Index{MakeIndSeq<Nd>{}, e0, size_t(es)...}
  {}
 private:
  template<size_t... ds, class... Ts>
  constexpr Index(IndSeq<ds...>, size_t e0, Ts... es) noexcept
    : extents_{e0, es...}
    , pitches_{extents2pitch<ds>(e0, es...)...}
  {}
 public:
  template<class... Ts>
  constexpr size_t operator()(size_t i0, Ts... is) const {
    return operator()(MakeIndSeq<Nd>{}, i0, is...);
  }
 private:
  template<size_t... ds, class... Ts>
  constexpr size_t operator()(IndSeq<ds...>, Ts... is) const {
    return sum((is*pitches_[ds])...);
  }
};

где extents2pitch может выглядеть как

template<size_t d, size_t... ds, class... Ts>
constexpr size_t extents2pitch_impl(IndSeq<ds...>, size_t N0, Ts... Ns) {
  return product<size_t>(
    Array<size_t, size_t(1)+sizeof...(Ns)>{N0, Ns...}[sizeof...(Ns)-ds]...
  );
}

template<size_t d, class... Ts>
constexpr size_t extents2pitch(size_t N0, Ts... Ns) {
  return extents2pitch_impl<d>(MakeIndSeq<sizeof...(Ns)-d>{}, N0, Ns...);
}