Проблемы с массовым обновлением sqlalchemy

Мне нужно периодически увеличивать значения в столбце с данными, которые я получаю в файле. Таблица имеет > 400000 строк. Пока все мои попытки приводят к очень низкой производительности. Я написал эксперимент, который отражает мои требования:

поэтому количество строк в 400000+ займет слишком много времени.

Я новичок в sqlalchemy, но я делал много чтения документов, и я просто не могу понять, что я делаю неправильно.

Ответы

Ответ 1

Вы используете правильный подход, делая массовое обновление с помощью одного запроса.

Причина, по которой это так долго, объясняется тем, что таблица не имеет индекса на sometable.column1. Он имеет только первичный индекс в столбце id.

В запросе на обновление используется sometable.column1 в предложении where для идентификации записи. Таким образом, база данных должна проверять все записи таблицы для каждого обновления столбца.

Чтобы ускорить выполнение обновления, вам необходимо обновить код определения схемы таблицы, чтобы добавить создание индекса в определение столбца с помощью , index=True:

sometable = Table('sometable',  metadata,
    Column('id', Integer, Sequence('sometable_id_seq'), primary_key=True),
    Column('column1', Integer, index=True),
    Column('column2', Integer),
)

Я протестировал обновленный код на моей машине - потребовалось 2 секунды для запуска программы.

BTW kudos к вашему описанию вопроса - вы помещаете весь код, необходимый для воспроизведения вашей проблемы.