Улучшение чистого первичного сита Python по формуле повторения

Я пытаюсь оптимизировать дальнейшее решение чемпиона в потоке с простым номером, выбирая сложную формулу для длины подписок. len() той же подпоследовательности слишком медленна, поскольку len стоит дорого, а генерация подпоследовательности является дорогостоящей. Это немного ускоряет выполнение функции, но я еще не смог отнять разделение, хотя я делаю деление только внутри оператора условия. Конечно, я мог бы попытаться упростить вычисление длины, выбирая оптимизацию стартовой маркировки для n вместо n * n...

Я заменил деление/на целочисленное деление//для совместимости с Python 3 или

Также мне было бы интересно, может ли эта формула повторения помочь ускорить решение numpy, но у меня нет опыта использования numpy.

Если вы включите psyco для кода, история станет совершенно другой, однако код ситца Аткинса станет быстрее, чем этот специальный метод нарезки.

Профилирование (не так много разницы между версиями)

Интересно, увеличив лимит до 10 ** 8 и включив декодер времени в функции, удаляющие профилирование:

Интересно, если вы не создадите список простых чисел, но вернете сито, время около половины от версии списка номеров.

Ответы

Ответ 1

Вы можете сделать оптимизацию колес. Умножения 2 и 3 не являются простыми, поэтому не храните их вообще. Затем вы можете начать с 5 и пропускать кратные 2 и 3 с шагом в 1,2,2,2,2,4 и т.д.

Ниже приведен код С++. Надеюсь, это поможет.

void sieve23()
{
    int lim=sqrt(MAX);
    for(int i=5,bit1=0;i<=lim;i+=(bit1?4:2),bit1^=1)
    {
        if(!isComp[i/3])
        {
            for(int j=i,bit2=1;;)
            {
                j+=(bit2?4*i:2*i);
                bit2=!bit2;
                if(j>=MAX)break;
                isComp[j/3]=1;
            }
        }
    }
}

Ответ 2

Если вы решите, что собираетесь на С++ улучшить скорость, я портировал сито Python на С++. Полное обсуждение можно найти здесь: Портирование оптимизированного сита эратосфенов с Python на С++.

В Intel Q6600, Ubuntu 10.10, скомпилированном с g++ -O3 и с N = 100000000, это занимает 415 мс.

#include <vector>
#include <boost/dynamic_bitset.hpp>

// http://vault.embedded.com/98/9802fe2.htm - integer square root
unsigned short isqrt(unsigned long a) {
    unsigned long rem = 0;
    unsigned long root = 0;

    for (short i = 0; i < 16; i++) {
        root <<= 1;
        rem = ((rem << 2) + (a >> 30));
        a <<= 2;
        root++;

        if (root <= rem) {
            rem -= root;
            root++;
        } else root--;

    }

    return static_cast<unsigned short> (root >> 1);
}

// https://stackoverflow.com/info/2068372/fastest-way-to-list-all-primes-below-n-in-python/3035188#3035188
// /info/318514/porting-optimized-sieve-of-eratosthenes-from-python-to-c5293492
template <class T>
void primesbelow(T N, std::vector<T> &primes) {
    T i, j, k, sievemax, sievemaxroot;

    sievemax = N/3;
    if ((N % 6) == 2) sievemax++;

    sievemaxroot = isqrt(N)/3;

    boost::dynamic_bitset<> sieve(sievemax);
    sieve.set();
    sieve[0] = 0;

    for (i = 0; i <= sievemaxroot; i++) {
        if (sieve[i]) {
            k = (3*i + 1) | 1;
            for (j = k*k/3; j < sievemax; j += 2*k) sieve[j] = 0;
            for (j = (k*k+4*k-2*k*(i&1))/3; j < sievemax; j += 2*k) sieve[j] = 0;
        }
    }

    primes.push_back(2);
    primes.push_back(3);

    for (i = 0; i < sievemax; i++) {
        if (sieve[i]) primes.push_back((3*i+1)|1);
    }

}