Принуждение EventProcessorHost к повторной доставке неудачных событий Event Hub Event Event для метода IEventProcessor.ProcessEvents

Приложение имеет реализацию IEventProcessor. Когда необработанное исключение EventProcessorHost из метода ProcessEventsAsync EventProcessorHost никогда не отправляет эти сообщения повторно в работающий экземпляр IEventProcessor. (Анекдотически, он будет повторно отправлять, если приложение хостинга остановлено и перезапущено или если аренда потеряна и повторно получена.)

Есть ли способ заставить сообщение события, в результате которого EventProcessorHost повторно отправить EventProcessorHost в реализацию IEventProcessor?

В комментарии предлагается хранить копию последнего успешно обработанного сообщения о событии и явно указывать контрольные точки, используя это сообщение, когда возникает исключение в ProcessEventsAsync. Однако после реализации и тестирования такого решения EventProcessorHost прежнему не отправляет повторно. Реализация довольно проста:

Ответы

Ответ 1

TL;DR: Единственный надежный способ переигрывать неудачную партию событий в IEventProcessor.ProcessEventsAsync является - Shutdown EventProcessorHost (ака EPH) сразу - либо с помощью eph.UnregisterEventProcessorAsync() или завершения процесса - в зависимости от ситуации, Это позволит другим экземплярам EPH получить аренду для этого раздела и начать с предыдущей контрольной точки.

Прежде чем объяснить это - я хочу сказать, что это отличный вопрос, и действительно, это был один из самых сложных вариантов дизайна, который мы должны были сделать для EPH. На мой взгляд, это был компромисс ч/б: usability/supportability структуры EPH, а не Technical-Correctness.

Идеальная ситуация была бы такой: когда пользовательский код в IEventProcessorImpl.ProcessEventsAsync создает исключение - библиотека EPH не должна его перехватывать. Это должно было позволить это Exception - сбой процесса, и crash-dump ясно показывает, что callstack. Я до сих пор верю - это самое technically-correct решение.

Текущая ситуация: контракт IEventProcessorImpl.ProcessEventsAsync API & EPH:

до тех пор, пока EventData может быть получен от службы EventHubs - продолжайте вызывать пользовательский обратный вызов (IEventProcessorImplementation.ProcessEventsAsync) с EventData's и если пользовательский обратный вызов выдает ошибки при вызове, уведомите EventProcessorOptions.ExceptionReceived.
Код пользователя внутри IEventProcessorImpl.ProcessEventsAsync должен обрабатывать все ошибки и включать в себя Retry's мере необходимости. EPH не устанавливает никакого тайм-аута для этого обратного вызова, чтобы предоставить пользователям полный контроль над временем обработки.
Если конкретное событие является причиной проблемы - пометьте EventData специальным свойством - для ex: type = poison-event и повторно отправьте в тот же EventHub (EventHub указатель на фактическое событие, скопируйте эти EventData.Offset и SequenceNumber в New EventData.ApplicationProperties) или перенаправьте его в очередь SERVICEBUS или сохраните в другом месте, в основном, идентифицируйте и отложите обработку ядовитого события.
если вы обработали все возможные случаи и по-прежнему сталкиваетесь с Exceptions - catch'em & shutdown EPH или failfast процесса с этим исключением. Когда EPH возвращается - он начнёт с того места, где его оставили.

Почему проверка "старого события" НЕ работает (прочитайте это, чтобы понять EPH в целом):

За кулисами EPH запускает насос для каждого получателя раздела EventHub Consumergroup - работа которого заключается в том, чтобы запустить получатель с заданной checkpoint (если он есть) и создать выделенный экземпляр реализации IEventProcessor а затем receive из назначенного раздела EventHub из указанного Offset в контрольной точке (если не присутствует - EventProcessorOptions.initialOffsetProvider) и в конечном итоге вызвать IEventProcessorImpl.ProcessEventsAsync. Цель Checkpoint - обеспечить надежный запуск обработки сообщений, когда процесс EPH завершает работу и владелец раздела перемещается в другие экземпляры EPH. Таким образом, checkpoint будет потребляться только при запуске НАСОСА и НЕ будет считываться после запуска насоса.

Пока я пишу это, EPH находится на версии 2.2.10.

более общее чтение на Event Hubs...

Ответ 2

Простой ответ: Вы пробовали EventProcessorHost.ResetConnection(string partiotionId)?

Комплексный ответ: Это может быть проблема архитектуры, которая должна быть решена в конце, почему обработка завершилась неудачно? это была временная ошибка? повторная логика обработки является возможным сценарием? И так далее...