Общий класс для выполнения массово-параллельных запросов. Обратная связь?
Я не понимаю, почему, но в клиентской библиотеке не существует механизма для параллельного выполнения множества запросов для Windows Azure Table Storage. Я создал класс шаблонов, который можно использовать для экономии времени, и вы можете использовать его, как хотите. Я был бы признателен, если бы вы могли разобрать его и предоставить отзывы о том, как улучшить этот класс.
public class AsyncDataQuery<T> where T: new()
{
public AsyncDataQuery(bool preserve_order)
{
m_preserve_order = preserve_order;
this.Queries = new List<CloudTableQuery<T>>(1000);
}
public void AddQuery(IQueryable<T> query)
{
var data_query = (DataServiceQuery<T>)query;
var uri = data_query.RequestUri; // required
this.Queries.Add(new CloudTableQuery<T>(data_query));
}
/// <summary>
/// Blocking but still optimized.
/// </summary>
public List<T> Execute()
{
this.BeginAsync();
return this.EndAsync();
}
public void BeginAsync()
{
if (m_preserve_order == true)
{
this.Items = new List<T>(Queries.Count);
for (var i = 0; i < Queries.Count; i++)
{
this.Items.Add(new T());
}
}
else
{
this.Items = new List<T>(Queries.Count * 2);
}
m_wait = new ManualResetEvent(false);
for (var i = 0; i < Queries.Count; i++)
{
var query = Queries[i];
query.BeginExecuteSegmented(callback, i);
}
}
public List<T> EndAsync()
{
m_wait.WaitOne();
m_wait.Dispose();
return this.Items;
}
private List<T> Items { get; set; }
private List<CloudTableQuery<T>> Queries { get; set; }
private bool m_preserve_order;
private ManualResetEvent m_wait;
private int m_completed = 0;
private object m_lock = new object();
private void callback(IAsyncResult ar)
{
int i = (int)ar.AsyncState;
CloudTableQuery<T> query = Queries[i];
var response = query.EndExecuteSegmented(ar);
if (m_preserve_order == true)
{ // preserve ordering only supports one result per query
lock (m_lock)
{
this.Items[i] = response.Results.Single();
}
}
else
{ // add any number of items
lock (m_lock)
{
this.Items.AddRange(response.Results);
}
}
if (response.HasMoreResults == true)
{ // more data to pull
query.BeginExecuteSegmented(response.ContinuationToken, callback, i);
return;
}
m_completed = Interlocked.Increment(ref m_completed);
if (m_completed == Queries.Count)
{
m_wait.Set();
}
}
}
Ответы
Ответ 1
Угадай, что я опаздываю на вечеринку. Я бы добавил две вещи:
- ManualResetEvent - IDisposable. Поэтому вам нужно убедиться, что он где-то находится.
- Обработка ошибок - если один из запросов не удастся, это, вероятно, провалит все это. Вероятно, вы должны повторить неудавшиеся запросы. В качестве альтернативы вы можете вернуть значения, которые вы получили, с некоторым указанием того, какие запросы не удались, чтобы вызывающий мог повторить запросы.
- Тайм-ауты на стороне клиента - их нет. Это не проблема, если серверная сторона вам не подходит, но если это когда-либо не удастся (например, проблемы с сетью), клиент будет висеть навсегда.
Кроме того, я думаю, что это на самом деле лучший подход к параллельной библиотеке задач. Перед этим я попробовал подход "За каждый запрос". Код был действительно более неудобным, и он, как правило, приводил к тому, что у него было много активных потоков. Я все еще не тестировал экстенсивно с вашим кодом, но, похоже, он работает лучше при первом румянце.
Update
Я поместил некоторую работу в более или менее переписанный код выше. Моя перезапись удаляет все блокировки, поддерживает тайм-ауты нависших на сервере транзакций (редко, но это происходит, и может действительно испортить ваш день) и некоторые логики обработки исключений. Существует полное решение с тестами Bitbucket. Наиболее подходящий код живет в одном файле, хотя для этого требуются некоторые помощники, которые находятся в других частях проекта.
Ответ 2
Рассматривали ли вы использование параллельной библиотеки задач?
http://msdn.microsoft.com/en-us/library/dd537609.aspx