Увеличьте срок службы потоков с синхронизацией (С++ 11)
У меня есть программа с функцией, которая принимает указатель как arg и main. Главное - создавать потоки n, каждый из которых выполняет функцию в разных областях памяти в зависимости от прошедшего arg
. Затем потоки соединяются, основной выполняет некоторые смешения данных между областью и создает n новые потоки, которые выполняют ту же операцию, что и старые.
Чтобы улучшить программу, я хотел бы сохранить потоки живыми, удалив длительное время, необходимое для их создания. Нити должны спать, когда основное устройство работает и уведомляется, когда им приходится подниматься снова. Точно так же основной должен ждать, когда потоки работают так же, как и с join.
Я не могу закончить сильную реализацию этого, всегда попадая в тупик.
Простой базовый код, любые подсказки о том, как его изменить, будут высоко оценены
#include <thread>
#include <climits>
...
void myfunc(void * p) {
do_something(p);
}
int main(){
void * myp[n_threads] {a_location, another_location,...};
std::thread mythread[n_threads];
for (unsigned long int j=0; j < ULONG_MAX; j++) {
for (unsigned int i=0; i < n_threads; i++) {
mythread[i] = std::thread(myfunc, myp[i]);
}
for (unsigned int i=0; i < n_threads; i++) {
mythread[i].join();
}
mix_data(myp);
}
return 0;
}
Ответы
Ответ 1
Вот возможный подход, использующий только классы из стандартной библиотеки С++ 11. В основном каждый создаваемый поток имеет связанную с ним очередь команд (инкапсулированных в std::packaged_task<>
объекты), которые он постоянно проверяет. Если очередь пуста, поток будет просто ждать переменной условия (std::condition_variable
).
Во избежание утечки данных с помощью оберток std::mutex
и std::unique_lock<>
RAII основной поток может дождаться завершения определенного задания путем сохранения объекта std::future<>
, связанного с каждым отправленным std::packaged_tast<>
, и вызова wait()
на нем.
Ниже приведена простая программа, которая следует за этой конструкцией. Комментарии должны быть достаточными, чтобы объяснить, что он делает:
#include <thread>
#include <iostream>
#include <sstream>
#include <future>
#include <queue>
#include <condition_variable>
#include <mutex>
// Convenience type definition
using job = std::packaged_task<void()>;
// Some data associated to each thread.
struct thread_data
{
int id; // Could use thread::id, but this is filled before the thread is started
std::thread t; // The thread object
std::queue<job> jobs; // The job queue
std::condition_variable cv; // The condition variable to wait for threads
std::mutex m; // Mutex used for avoiding data races
bool stop = false; // When set, this flag tells the thread that it should exit
};
// The thread function executed by each thread
void thread_func(thread_data* pData)
{
std::unique_lock<std::mutex> l(pData->m, std::defer_lock);
while (true)
{
l.lock();
// Wait until the queue won't be empty or stop is signaled
pData->cv.wait(l, [pData] () {
return (pData->stop || !pData->jobs.empty());
});
// Stop was signaled, let exit the thread
if (pData->stop) { return; }
// Pop one task from the queue...
job j = std::move(pData->jobs.front());
pData->jobs.pop();
l.unlock();
// Execute the task!
j();
}
}
// Function that creates a simple task
job create_task(int id, int jobNumber)
{
job j([id, jobNumber] ()
{
std::stringstream s;
s << "Hello " << id << "." << jobNumber << std::endl;
std::cout << s.str();
});
return j;
}
int main()
{
const int numThreads = 4;
const int numJobsPerThread = 10;
std::vector<std::future<void>> futures;
// Create all the threads (will be waiting for jobs)
thread_data threads[numThreads];
int tdi = 0;
for (auto& td : threads)
{
td.id = tdi++;
td.t = std::thread(thread_func, &td);
}
//=================================================
// Start assigning jobs to each thread...
for (auto& td : threads)
{
for (int i = 0; i < numJobsPerThread; i++)
{
job j = create_task(td.id, i);
futures.push_back(j.get_future());
std::unique_lock<std::mutex> l(td.m);
td.jobs.push(std::move(j));
}
// Notify the thread that there is work do to...
td.cv.notify_one();
}
// Wait for all the tasks to be completed...
for (auto& f : futures) { f.wait(); }
futures.clear();
//=================================================
// Here the main thread does something...
std::cin.get();
// ...done!
//=================================================
//=================================================
// Posts some new tasks...
for (auto& td : threads)
{
for (int i = 0; i < numJobsPerThread; i++)
{
job j = create_task(td.id, i);
futures.push_back(j.get_future());
std::unique_lock<std::mutex> l(td.m);
td.jobs.push(std::move(j));
}
// Notify the thread that there is work do to...
td.cv.notify_one();
}
// Wait for all the tasks to be completed...
for (auto& f : futures) { f.wait(); }
futures.clear();
// Send stop signal to all threads and join them...
for (auto& td : threads)
{
std::unique_lock<std::mutex> l(td.m);
td.stop = true;
td.cv.notify_one();
}
// Join all the threads
for (auto& td : threads) { td.t.join(); }
}
Ответ 2
Концепция, которую вы хотите, это threadpool. Этот вопрос SO > касается существующих реализаций.
Идея состоит в том, чтобы иметь контейнер для нескольких экземпляров потоков. Каждый экземпляр связан с функцией, которая проверяет очередь задач, и когда задача доступна, вытаскивает ее и запускает. Когда задача завершена (если она завершается, но эта другая проблема), поток просто перебирается в очередь задач.
Итак, вам нужна синхронизированная очередь, класс потоков, который реализует цикл в очереди, интерфейс для объектов задачи и, возможно, класс, чтобы управлять всем (класс пула).
В качестве альтернативы вы можете создать очень специализированный класс потоков для задачи, которую он должен выполнить (например, только область памяти в качестве параметра). Для этого требуется механизм уведомления для потоков, чтобы указать, что они выполняются с текущей итерацией.
Основная функция потока будет циклом для этой конкретной задачи, а в конце одной итерации поток сигнализирует о ее окончании и ожидает переменные условия для запуска следующего цикла. По сути, вы должны были бы вставить код задачи в поток, полностью отбросив необходимость в очереди.
using namespace std;
// semaphore class based on C++11 features
class semaphore {
private:
mutex mMutex;
condition_variable v;
int mV;
public:
semaphore(int v): mV(v){}
void signal(int count=1){
unique_lock lock(mMutex);
mV+=count;
if (mV > 0) mCond.notify_all();
}
void wait(int count = 1){
unique_lock lock(mMutex);
mV-= count;
while (mV < 0)
mCond.wait(lock);
}
};
template <typename Task>
class TaskThread {
thread mThread;
Task *mTask;
semaphore *mSemStarting, *mSemFinished;
volatile bool mRunning;
public:
TaskThread(Task *task, semaphore *start, semaphore *finish):
mTask(task), mRunning(true),
mSemStart(start), mSemFinished(finish),
mThread(&TaskThread<Task>::psrun){}
~TaskThread(){ mThread.join(); }
void run(){
do {
(*mTask)();
mSemFinished->signal();
mSemStart->wait();
} while (mRunning);
}
void finish() { // end the thread after the current loop
mRunning = false;
}
private:
static void psrun(TaskThread<Task> *self){ self->run();}
};
classcMyTask {
public:
MyTask(){}
void operator()(){
// some code here
}
};
int main(){
MyTask task1;
MyTask task2;
semaphore start(2), finished(0);
TaskThread<MyTask> t1(&task1, &start, &finished);
TaskThread<MyTask> t2(&task2, &start, &finished);
for (int i = 0; i < 10; i++){
finished.wait(2);
start.signal(2);
}
t1.finish();
t2.finish();
}
Предлагаемая (грубая) реализация выше опирается на тип Task
, который должен предоставить operator()
(то есть класс, подобный функтору). Я сказал, что вы можете включить код задачи непосредственно в тело функции потока раньше, но поскольку я этого не знаю, я сохранил его как абстрактное, как мог. Там есть одна переменная условия для начала потоков и одна для их конца, как инкапсулированные в экземпляры семафора.
Увидев другой ответ, предлагающий использовать boost::barrier
, я могу только поддержать эту идею: обязательно замените мой класс семафора на этот класс, если это возможно, причина в том, что лучше полагайтесь на хорошо проверенный и поддерживаемый внешний код, а не на самореализованное решение для того же набора функций.
В целом, оба подхода действительны, но первый дает небольшую производительность в пользу гибкости. Если задача, которую нужно выполнить, занимает достаточно много времени, стоимость синхронизации управления и очереди становится незначительной.
Обновление: исправлен и протестирован код. Заменена простая переменная условия семафором.
Ответ 3
Это может быть легко достигнуто с помощью барьера (просто удобная обертка над условной переменной и счетчиком). Он в основном блокирует до тех пор, пока все нити N не достигнут "барьера". Затем он снова перерабатывается. Boost обеспечивает реализацию.
void myfunc(void * p, boost::barrier& start_barrier, boost::barrier& end_barrier) {
while (!stop_condition) // You'll need to tell them to stop somehow
{
start_barrier.wait ();
do_something(p);
end_barrier.wait ();
}
}
int main(){
void * myp[n_threads] {a_location, another_location,...};
boost::barrier start_barrier (n_threads + 1); // child threads + main thread
boost::barrier end_barrier (n_threads + 1); // child threads + main thread
std::thread mythread[n_threads];
for (unsigned int i=0; i < n_threads; i++) {
mythread[i] = std::thread(myfunc, myp[i], start_barrier, end_barrier);
}
start_barrier.wait (); // first unblock the threads
for (unsigned long int j=0; j < ULONG_MAX; j++) {
end_barrier.wait (); // mix_data must not execute before the threads are done
mix_data(myp);
start_barrier.wait (); // threads must not start new iteration before mix_data is done
}
return 0;
}
Ответ 4
Ниже приведен простой компиляционный и рабочий код, выполняющий некоторые случайные вещи. Он реализует концепцию барьера. Длина задачи каждого потока различна, поэтому действительно необходимо иметь сильный механизм синхронизации. Я попытаюсь сделать пул по тем же задачам и сравнить результат, а затем, возможно, с фьючерсами, как указал Энди Проул.
#include <iostream>
#include <thread>
#include <mutex>
#include <condition_variable>
#include <chrono>
#include <complex>
#include <random>
const unsigned int n_threads=4; //varying this will not (almost) change the total amount of work
const unsigned int task_length=30000/n_threads;
const float task_length_variation=task_length/n_threads;
unsigned int rep=1000; //repetitions of tasks
class t_chronometer{
private:
std::chrono::steady_clock::time_point _t;
public:
t_chronometer(): _t(std::chrono::steady_clock::now()) {;}
void reset() {_t = std::chrono::steady_clock::now();}
double get_now() {return std::chrono::duration_cast<std::chrono::duration<double>>(std::chrono::steady_clock::now() - _t).count();}
double get_now_ms() {return
std::chrono::duration_cast<std::chrono::duration<double,std::milli>>(std::chrono::steady_clock::now() - _t).count();}
};
class t_barrier {
private:
std::mutex m_mutex;
std::condition_variable m_cond;
unsigned int m_threshold;
unsigned int m_count;
unsigned int m_generation;
public:
t_barrier(unsigned int count):
m_threshold(count),
m_count(count),
m_generation(0) {
}
bool wait() {
std::unique_lock<std::mutex> lock(m_mutex);
unsigned int gen = m_generation;
if (--m_count == 0)
{
m_generation++;
m_count = m_threshold;
m_cond.notify_all();
return true;
}
while (gen == m_generation)
m_cond.wait(lock);
return false;
}
};
using namespace std;
void do_something(complex<double> * c, unsigned int max) {
complex<double> a(1.,0.);
complex<double> b(1.,0.);
for (unsigned int i = 0; i<max; i++) {
a *= polar(1.,2.*M_PI*i/max);
b *= polar(1.,4.*M_PI*i/max);
*(c)+=a+b;
}
}
bool done=false;
void task(complex<double> * c, unsigned int max, t_barrier* start_barrier, t_barrier* end_barrier) {
while (!done) {
start_barrier->wait ();
do_something(c,max);
end_barrier->wait ();
}
cout << "task finished" << endl;
}
int main() {
t_chronometer t;
std::default_random_engine gen;
std::normal_distribution<double> dis(.0,1000.0);
complex<double> cpx[n_threads];
for (unsigned int i=0; i < n_threads; i++) {
cpx[i] = complex<double>(dis(gen), dis(gen));
}
t_barrier start_barrier (n_threads + 1); // child threads + main thread
t_barrier end_barrier (n_threads + 1); // child threads + main thread
std::thread mythread[n_threads];
unsigned long int sum=0;
for (unsigned int i=0; i < n_threads; i++) {
unsigned int max = task_length + i * task_length_variation;
cout << i+1 << "th task length: " << max << endl;
mythread[i] = std::thread(task, &cpx[i], max, &start_barrier, &end_barrier);
sum+=max;
}
cout << "total task length " << sum << endl;
complex<double> c(0,0);
for (unsigned long int j=1; j < rep+1; j++) {
start_barrier.wait (); //give to the threads the missing call to start
if (j==rep) done=true;
end_barrier.wait (); //wait for the call from each tread
if (j%100==0) cout << "cycle: " << j << endl;
for (unsigned int i=0; i<n_threads; i++) {
c+=cpx[i];
}
}
for (unsigned int i=0; i < n_threads; i++) {
mythread[i].join();
}
cout << "result: " << c << " it took: " << t.get_now() << " s." << endl;
return 0;
}