Рекомендуемый метод импорта CSV файла в Microsoft SQL Server 2008 R2?
Каков ваш рекомендуемый способ импорта CSV файлов в Microsoft SQL Server 2008 R2?
Мне бы хотелось что-то быстро, так как у меня есть каталог с большим количеством файлов .csv( > 500 МБ, распространяемых по 500 файлам .csv).
Я использую SQL Server 2008 R2 на Win 7 x64.
Обновление: решение
Вот как я решил проблему в конце:
- Я отказался от попыток использовать LINQ для Entities для выполнения этой задачи. Он работает - но он не поддерживает объемную вставку, поэтому ее примерно в 20 раз медленнее. Возможно, следующая версия LINQ to Entities будет поддерживать это.
- Взял совет, данный в этой теме, использовал объемную вставку.
- Я создал хранимую процедуру T-SQL, которая использует объемную вставку. Данные переходят в промежуточную таблицу, затем нормализуются, а затем копируются в целевые таблицы.
- Я отобразил хранимую процедуру на С#, используя структуру LINQ to Entities (есть видео на www.learnvisualstudio.net, показывающее, как это сделать).
- Я написал весь код для циклического использования файлов и т.д. на С#.
- Этот метод устраняет самое большое узкое место, которое считывает тонны данных с диска и вставляет их в базу данных.
Причина, по которой этот метод чрезвычайно быстрый при чтении CSV файлов? Microsoft SQL Server позволяет импортировать файлы непосредственно с жесткого диска прямо в базу данных, используя свои высоко оптимизированные подпрограммы. Большинство других решений на базе С# требуют гораздо больше кода, а некоторые (например, LINQ to Entities) вынуждены медленно передавать данные в базу данных по ссылке С# -to-SQL-server.
Да, я знаю, что было бы лучше иметь 100% -ный код С# для выполнения задания, но в конце:
- (a) Для этой конкретной проблемы использование T-SQL требует гораздо меньше кода по сравнению с С#, около 1/10, особенно для того, чтобы логика денормализовала данные из промежуточной таблицы. Это проще и удобнее обслуживать.
- (b) Использование T-SQL означает, что вы можете воспользоваться процедурами внутренней вставки вставки, что ускоряет работу с 20-минутного ожидания до 30-секундной паузы.
Ответы
Ответ 1
Использование BULK INSERT в T-SQL script представляется хорошим решением.
http://blog.sqlauthority.com/2008/02/06/sql-server-import-csv-file-into-sql-server-using-bulk-insert-load-comma-delimited-file-into-sql-server/
Вы можете получить список файлов в вашем каталоге с помощью xp_cmdshell и команды dir (с небольшим количеством очистки). Раньше я пытался сделать что-то подобное с помощью функций sp_OAMethod и VBScript и должен был использовать метод dir, потому что мне не удалось получить список файлов с объектом FSO.
http://www.sqlusa.com/bestpractices2008/list-files-in-directory/
Ответ 2
Если вам нужно что-либо делать с данными в файлах, кроме вставки, я бы рекомендовал использовать SSIS. Он может не только вставлять и/или обновлять, он также может очищать данные для вас.
Ответ 3
Первый официально поддерживаемый способ импорта больших текстовых файлов - это инструмент командной строки, называемый "bcp" (утилита Bulk Copy Utility), очень полезный для огромного количества двоичных данных.
Пожалуйста, ознакомьтесь с этой ссылкой: http://msdn.microsoft.com/en-us/library/ms162802.aspx
Однако в SQL Server 2008 я предполагаю, что команда BULK INSERT будет вашим выбором номер один, потому что на первом месте она стала частью стандартного набора команд. Если по какой-либо причине вы должны поддерживать вертикальную совместимость, я бы использовал утилиту bcp, также доступную для SQL Server 2000.
HTH:)
EDITED LATER: Googling around Я вспомнил, что SQL Server 2000 также имел команду BULK INSERT... однако, очевидно, была определенная причина, по которой я придерживался bcp.exe, и я не могу вспомнить, почему... возможно, некоторые ограничения, Думаю.
Ответ 4
Я должен порекомендовать это:
using System;
using System.Data;
using Microsoft.VisualBasic.FileIO;
namespace ReadDataFromCSVFile
{
static class Program
{
static void Main()
{
string [email protected]"C:\Users\Administrator\Desktop\test.csv";
DataTable csvData = GetDataTabletFromCSVFile(csv_file_path);
Console.WriteLine("Rows count:" + csvData.Rows.Count);
Console.ReadLine();
}
private static DataTable GetDataTabletFromCSVFile(string csv_file_path)
{
DataTable csvData = new DataTable();
try
{
using(TextFieldParser csvReader = new TextFieldParser(csv_file_path))
{
csvReader.SetDelimiters(new string[] { "," });
csvReader.HasFieldsEnclosedInQuotes = true;
string[] colFields = csvReader.ReadFields();
foreach (string column in colFields)
{
DataColumn datecolumn = new DataColumn(column);
datecolumn.AllowDBNull = true;
csvData.Columns.Add(datecolumn);
}
while (!csvReader.EndOfData)
{
string[] fieldData = csvReader.ReadFields();
//Making empty value as null
for (int i = 0; i < fieldData.Length; i++)
{
if (fieldData[i] == "")
{
fieldData[i] = null;
}
}
csvData.Rows.Add(fieldData);
}
}
}
catch (Exception ex)
{
}
return csvData;
}
}
}
//Copy the DataTable to SQL Server using SqlBulkCopy
function static void InsertDataIntoSQLServerUsingSQLBulkCopy(DataTable csvData)
{
using(SqlConnection dbConnection = new SqlConnection("Data Source=ProductHost;Initial Catalog=yourDB;Integrated Security=SSPI;"))
{
dbConnection.Open();
using (SqlBulkCopy s = new SqlBulkCopy(dbConnection))
{
s.DestinationTableName = "Your table name";
foreach (var column in csvFileData.Columns)
s.ColumnMappings.Add(column.ToString(), column.ToString());
s.WriteToServer(csvFileData);
}
}
}
Ответ 5
Если структура всех ваших CSV одинакова, я рекомендую вам использовать службы интеграции (SSIS) для того, чтобы зацикливаться между ними и вставить все их в одну таблицу.
Ответ 6
Я понимаю, что это не совсем ваш вопрос. Но, если вы попадаете в ситуацию, когда вы используете прямую вставку, используйте tablock и вставляете несколько строк. Зависит от размера строки, но я обычно иду за 600-800 строк во время. Если это загрузка в пустую таблицу, то иногда падение индексов и их создание после загрузки происходит быстрее. Если вы можете сортировать данные в кластерном индексе перед его загрузкой. Используйте IGNORE_CONSTRAINTS и IGNORE_TRIGGERS, если сможете. Поместите базу данных в однопользовательский режим, если сможете.
ИСПОЛЬЗОВАТЬ AdventureWorks2008R2;
ИДТИ
INSERT INTO Production.UnitMeasure с (tablock)
(N'Y ', N'Yards', '20080923'), (N'Y3 ', N'Cubic Yards', '20080923'),;
GO