Улучшить производительность SQLite в секунду в секунду?

Оптимизировать SQLite сложно. Массовая вставка приложения C может варьироваться от 85 вставок в секунду до более 96 000 вставок в секунду!

Справочная информация: Мы используем SQLite как часть настольного приложения. У нас есть большие объемы данных конфигурации, хранящихся в файлах XML, которые анализируются и загружаются в базу данных SQLite для дальнейшей обработки при инициализации приложения. SQLite идеально подходит для этой ситуации, поскольку он быстрый, не требует специальной настройки, а база данных хранится на диске в виде одного файла.

Обоснование: Сначала я был разочарован тем, что увидел. Оказывается, что производительность SQLite может значительно различаться (как для массовых вставок, так и для выборок) в зависимости от того, как настроена база данных и как вы используете API. Было непросто выяснить, каковы были все варианты и методы, поэтому я подумал, что было бы разумно создать эту вики-статью сообщества, чтобы поделиться результатами с читателями Qaru, чтобы избавить других от проблем, связанных с теми же исследованиями.

Эксперимент: Вместо того, чтобы просто говорить о советах по повышению производительности в общем смысле (т.е. "Использовать транзакцию!"), Я подумал, что лучше написать некоторый код на C и фактически измерить влияние различных вариантов. Начнем с простых данных:

Код: Простая программа на Си, которая построчно читает текстовый файл, разбивает строку на значения и затем вставляет данные в базу данных SQLite. В этой "базовой" версии кода база данных создана, но мы не будем вставлять данные:

"Контроль"

Выполнение кода "как есть" на самом деле не выполняет никаких операций с базой данных, но даст нам представление о том, насколько быстры операции ввода-вывода и обработки строк в необработанном C файле.

Большой! Мы можем сделать 920 000 вставок в секунду, при условии, что мы фактически не делаем никаких вставок: -)

"Наихудший случай-сценарий"

Мы собираемся сгенерировать строку SQL, используя значения, считанные из файла, и вызвать эту операцию SQL, используя sqlite3_exec:

Это будет медленно, потому что SQL будет скомпилирован в код VDBE для каждой вставки, и каждая вставка будет происходить в своей собственной транзакции. Как медленно?

Хлоп! 2 часа 45 минут! Это только 85 вставок в секунду.

Использование транзакции

По умолчанию SQLite оценивает каждый оператор INSERT/UPDATE в пределах уникальной транзакции. Если выполняется большое количество вставок, рекомендуется заключить вашу операцию в транзакцию:

Что лучше. Простое объединение всех наших вставок в одну транзакцию улучшило нашу производительность до 23 000 вставок в секунду.

Использование подготовленного оператора

Использование транзакции было огромным улучшением, но перекомпиляция оператора SQL для каждой вставки не имеет смысла, если мы используем один и тот же SQL снова и снова. Давайте использовать sqlite3_prepare_v2, чтобы скомпилировать наш оператор SQL один раз, а затем связать наши параметры с этим оператором, используя sqlite3_bind_text:

Приятно! Там немного больше кода (не забудьте назвать sqlite3_clear_bindings и sqlite3_reset), но мы более чем удвоили нашу производительность до 53 000 вставок в секунду.

PRAGMA синхронно = ВЫКЛ

По умолчанию SQLite приостанавливается после выдачи команды записи на уровне ОС. Это гарантирует, что данные будут записаны на диск. Установив synchronous = OFF, мы инструктируем SQLite просто передать данные в ОС для записи и затем продолжить. Существует вероятность того, что файл базы данных может быть поврежден в случае катастрофического сбоя (или сбоя питания) компьютера перед записью данных на диск:

Улучшения теперь меньше, но мы достигаем 69 600 вставок в секунду.

PRAGMA journal_mode = MEMORY

Рассмотрите возможность сохранения журнала отката в памяти, оценивая PRAGMA journal_mode = MEMORY. Ваша транзакция будет быстрее, но если вы потеряете энергию или ваша программа выйдет из строя во время транзакции, ваша база данных может остаться в поврежденном состоянии с частично завершенной транзакцией:

Немного медленнее, чем предыдущая оптимизация при 64 000 вставок в секунду.

PRAGMA синхронно = OFF и PRAGMA journal_mode = MEMORY

Давайте объединим две предыдущие оптимизации. Это немного более рискованно (в случае сбоя), но мы просто импортируем данные (не управляя банком):

Фантастика! Мы можем сделать 72 000 вставок в секунду.

Использование базы данных в памяти

Для простоты позвольте основываться на всех предыдущих оптимизациях и переопределить имя файла базы данных, чтобы мы полностью работали в оперативной памяти:

Хранить нашу базу данных в ОЗУ не супер практично, но впечатляет, что мы можем выполнять 79 000 операций вставки в секунду.

Рефакторинг кода С

Хотя это и не улучшение SQLite, мне не нравятся дополнительные операции присваивания char* в цикле while. Давайте быстро проведем рефакторинг этого кода, чтобы передать вывод strtok() непосредственно в sqlite3_bind_text(), и пусть компилятор попытается ускорить процесс за нас:

Примечание. Мы вернулись к использованию реального файла базы данных. Базы данных в памяти быстрые, но не обязательно практичные

Небольшой рефакторинг кода обработки строки, используемого в нашей привязке параметров, позволил нам выполнить 96 700 операций вставки в секунду. Я думаю, можно с уверенностью сказать, что это достаточно быстро. Когда мы начнем настраивать другие переменные (например, размер страницы, создание индекса и т.д.), Это будет нашим эталоном.

Резюме (пока)

Я надеюсь, что ты все еще со мной! Причина, по которой мы пошли по этому пути, заключается в том, что производительность массовых вставок так сильно варьируется в SQLite, и не всегда очевидно, какие изменения необходимо внести для ускорения нашей работы. Используя тот же компилятор (и параметры компилятора), ту же версию SQLite и те же данные, мы оптимизировали наш код и используем SQLite для перехода от от наихудшего сценария к 85 вставкам в секунду к более чем 96 000 вставок в секунду!

CREATE INDEX, затем INSERT и INSERT, затем CREATE INDEX

Прежде чем мы начнем измерять производительность SELECT, мы знаем, что будем создавать индексы. В одном из приведенных ниже ответов было предложено, чтобы при выполнении массовой вставки индекс создавался быстрее после вставки данных (в отличие от создания индекса сначала, а затем вставки данных). Давай попробуем:

Как и ожидалось, массовая вставка выполняется медленнее, если индексируется один столбец, но это имеет значение, если индекс создается после вставки данных. Наш базовый уровень без индекса составляет 96 000 вставок в секунду. Сначала создание индекса, а затем вставка данных дает нам 47 700 вставок в секунду, тогда как вставка данных сначала, а затем создание индекса дает нам 63 300 вставок в секунду.

Я бы с удовольствием принял предложения по другим сценариям, чтобы попробовать... И скоро собираю аналогичные данные для запросов SELECT.

Ответы

Ответ 1

Несколько советов:

Вставьте вставки/обновления в транзакцию.
Для более старых версий SQLite - рассмотрите режим менее параноидального журнала (pragma journal_mode). Существует NORMAL, а затем есть OFF, что может значительно увеличить скорость вставки, если вы не слишком беспокоитесь о том, что база данных может быть повреждена, если ОС сбой. Если ваше приложение выходит из строя, данные должны быть точными. Обратите внимание, что в более новых версиях настройки OFF/MEMORY небезопасны для сбоев на уровне приложений.
Игра с размерами страниц также имеет значение (PRAGMA page_size). Имея большие размеры страниц, вы можете сделать чтение и запись немного быстрее, поскольку в памяти хранятся более крупные страницы. Обратите внимание, что для вашей базы данных будет использоваться больше памяти.
Если у вас есть индексы, подумайте о вызове CREATE INDEX после выполнения всех ваших вставок. Это значительно быстрее, чем создание индекса, а затем выполнение ваших вставок.
Вы должны быть достаточно осторожны, если у вас есть одновременный доступ к SQLite, поскольку вся база данных заблокирована при выполнении записи, и, хотя возможны несколько считывателей, записи будут заблокированы. Это несколько улучшилось с добавлением WAL в новых версиях SQLite.
Воспользуйтесь преимуществами экономии места... более мелкие базы данных идут быстрее. Например, если у вас есть пары ключевых значений, попробуйте сделать ключ INTEGER PRIMARY KEY если это возможно, что заменит подразумеваемый уникальный столбец строк в таблице.
Если вы используете несколько потоков, вы можете попробовать использовать кеш разделяемой страницы, который позволит обмениваться загружаемыми страницами между потоками, что позволяет избежать дорогостоящих вызовов ввода-вывода.
Не используйте !feof(file) !

Я также задал подобные вопросы здесь и здесь.

Ответ 2

Попробуйте использовать SQLITE_STATIC вместо SQLITE_TRANSIENT для этих вставок.

SQLITE_TRANSIENT заставит SQLite скопировать данные строки перед возвратом.

SQLITE_STATIC сообщает, что адрес памяти, который вы ему дали, будет действителен до тех пор, пока запрос не будет выполнен (что в этом цикле всегда имеет место). Это позволит вам несколько распределить, скопировать и освободить операции для каждого цикла. Возможно, значительное улучшение.

Ответ 3

Избегайте sqlite3_clear_bindings(stmt).

Код в тесте каждый раз устанавливает привязки, которых должно быть достаточно.

Введение в API C из документации по SQLite гласит:

До вызова sqlite3_step() в первый раз или сразу после sqlite3_reset() приложение может вызвать sqlite3_bind() интерфейсы для добавления значений к параметрам. каждый вызов sqlite3_bind() отменяет предыдущие привязки для того же параметра

В sqlite3_clear_bindings ничего не сказано в документах о том, что вы должны вызывать это в дополнение к простой установке привязок.

Подробнее: Avoid_sqlite3_clear_bindings()

Ответ 4

На объемных вставках

Вдохновленный этим сообщением и вопросом о переполнении стека, который привел меня сюда - Возможно ли вставлять сразу несколько строк в базу данных SQLite? - Я разместил свой первый Git репозиторий:

~~https://github.com/rdpoor/CreateOrUpdate~~

который загружает массив ActiveRecords в MySQL, SQLite или PostgreSQL. Он включает в себя возможность игнорировать существующие записи, перезаписывать их или вызывать ошибку. Мои рудиментарные тесты показывают 10-кратное улучшение скорости по сравнению с последовательной записью - YMMV.

Я использую его в производственном коде, где мне часто нужно импортировать большие наборы данных, и я очень доволен им.

Ответ 5

Массовый импорт, по-видимому, лучше всего работает, если вы можете разбить свои операторы INSERT/UPDATE. Значение 10000 или около того хорошо сработало для меня на столе с несколькими строками, YMMV...

Ответ 6

Если вы заботитесь только о чтении, более быстрая (но может считывать устаревшие данные) версия - это чтение из нескольких соединений из нескольких потоков (соединение на поток).

Сначала найдите предметы в таблице:

SELECT COUNT(*) FROM table

затем прочитайте на страницах (LIMIT/OFFSET):

SELECT * FROM table ORDER BY _ROWID_ LIMIT <limit> OFFSET <offset>

где и рассчитываются на поток, как это:

int limit = (count + n_threads - 1)/n_threads;

для каждой темы:

int offset = thread_index * limit

Для нашей маленькой (200 МБ) базы данных это ускорилось на 50-75% (64-разрядная версия 3.8.0.2 в Windows 7). Наши таблицы сильно ненормализованы (1000-1500 столбцов, примерно 100000 или более строк).

Слишком много или слишком мало тем не сделают этого, вам нужно самим оценить и профилировать.

Также для нас SHAREDCACHE замедлил производительность, поэтому я вручную поставил PRIVATECACHE (потому что он был включен для нас глобально)

Ответ 7

Я не получаю никакого выигрыша от транзакций, пока я не повышу cache_size до более высокого значения, т.е. PRAGMA cache_size=10000;

Ответ 8

Прочитав этот учебник, я попытался реализовать его в своей программе.

У меня есть 4-5 файлов, содержащих адреса. Каждый файл содержит около 30 миллионов записей. Я использую ту же конфигурацию, которую вы предлагаете, но мой номер INSERT в секунду является низким (~ 10.000 записей в секунду).

Здесь ваше предложение терпит неудачу. Вы используете одну транзакцию для всех записей и одну вставку без ошибок/сбоев. Скажем, что вы разбиваете каждую запись на несколько вставок на разные таблицы. Что произойдет, если запись будет нарушена?

Команда ON CONFLICT не применяется, потому что если у вас есть 10 элементов в записи, и вам нужно, чтобы каждый элемент был вставлен в другую таблицу, если элемент 5 получает ошибку CONSTRAINT, тогда все предыдущие 4 вставки тоже должны идти.

Таким образом, здесь происходит откат. Единственная проблема с откатом заключается в том, что вы теряете все свои вставки и начинаете с вершины. Как вы можете это решить?

Мое решение заключалось в использовании нескольких транзакций. Я начинаю и заканчиваю транзакцию каждые 10.000 записей (не спрашивайте, почему это число, это был самый быстрый, который я тестировал). Я создал массив размером 10.000 и вставлял там успешные записи. Когда возникает ошибка, я делаю откат, начинаю транзакцию, вставляю записи из своего массива, фиксирую и начинаю новую транзакцию после разбитой записи.

Это решение помогло мне обойти проблемы, которые у меня возникают при работе с файлами, содержащими плохие/дублированные записи (у меня было почти 4% плохих записей).

Созданный мной алгоритм помог мне сократить мой процесс на 2 часа. Окончательный процесс загрузки файла 1hr 30m, который все еще медленный, но не сравнимый с 4hrs, который он первоначально взял. Мне удалось ускорить вставку с 10.000/с до ~ 14.000/с

Если у кого-то есть другие идеи о том, как ускорить это, я открыт для предложений.

ОБНОВЛЕНИЕ:

В дополнение к моему ответу выше, вы должны иметь в виду, что вставки в секунду зависят от жесткого диска, который вы используете. Я тестировал его на трех разных ПК с разными жесткими дисками и получал огромные различия во времени. PC1 (1 час 30 м), PC2 (6 часов) PC3 (14 часов), поэтому я начал задаваться вопросом, почему бы это было так.

После двух недель исследований и проверки нескольких ресурсов: Hard Drive, Ram, Cache, я узнал, что некоторые настройки на вашем жестком диске могут повлиять на скорость ввода-вывода. Нажимая свойства на желаемом выходном диске, вы можете увидеть два варианта на общей вкладке. Opt1: Сжатие этого диска, Opt2: Разрешить файлу этого диска индексировать содержимое.

Отключив эти два варианта, все 3 компьютера теперь занимают примерно одно и то же время для завершения (1 час и от 20 до 40 минут). Если вы сталкиваетесь с медленными вставками, проверьте, настроен ли ваш жесткий диск с этими параметрами. Это сэкономит вам много времени и головных болей, пытаясь найти решение

Ответ 9

Ответ на ваш вопрос заключается в том, что новый sqlite3 имеет улучшенную производительность, используйте это.

Этот ответ Почему SQLAlchemy вставляются с sqlite в 25 раз медленнее, чем с использованием sqlite3 напрямую? автор SqlAlchemy Orm Автор имеет 100k вставки за 0,5 секунды, и я видел аналогичные результаты с python-sqlite и SqlAlchemy. Это заставляет меня поверить, что производительность улучшилась благодаря sqlite3

Ответ 10

Существует отличная лекционная форма Paul Betts о том, как он сделал С# akavache так быстро: https://www.youtube.com/watch?v=j7WnQhwBwqA

Может быть, вы найдете для себя какие-то подсказки. Слишком короткое резюме здесь

Ответ 11

Используйте ContentProvider для вставки массовых данных в БД. Приведенный ниже метод используется для вставки больших объемов данных в базу данных. Это должно улучшить производительность INSERT в секунду SQLite.

private SQLiteDatabase database;
database = dbHelper.getWritableDatabase();

public int bulkInsert(@NonNull Uri uri, @NonNull ContentValues[] values) {

database.beginTransaction();

for (ContentValues value : values)
 db.insert("TABLE_NAME", null, value);

database.setTransactionSuccessful();
database.endTransaction();

}

Вызвать метод bulkInsert:

App.getAppContext().getContentResolver().bulkInsert(contentUriTable,
            contentValuesArray);

Ссылка: https://www.vogella.com/tutorials/AndroidSQLite/article.html проверка Использование раздела ContentProvider для получения более подробной информации