понедельник, 24 февраля 2014 г.

Комплексная система мониторинга ИТ - Часть 4

продолжаем - http://anrad13.blogspot.ru/2014/02/3.html

Часть 4 - Мониторинг бизнес-процессов

Является ли знание что у вас все сервера, базы данные и сети работают исправно достаточным, чтобы быть уверенным, что данные обрабатываются корректно? И ничего «не зависло» и «не потерялось»?

Представим, что у нас есть некий процесс обработки абстрактных «заявок», которые обрабатываются в двух системах А и А’: 
  • На первом этапе заявка создается в системе А.
  • Далее Заявка передается через некий транспорт, например Enterprise Service Bus, в систему А’
  • В системе А’ проходит некие этапы и через некоторое время передается обратно в систему А 


Легко видеть, что любой программный сбой или неисправность с одним из трех компонентов может привести к остановке бизнес-процесса. Хотя с точки зрения систем мониторинга сервера работают, данные передаются, сервисы доступны. Мало того, для операторов системы А все будет то же хорошо. Заявки регистрируются и передаются далее на обработку.
Сбой может пройти незамеченным, и в результате «всего лишь» несколько заявок «потеряются». А еще может быть, что после восстановления базы данных систем А и А’ не синхронизировались.

Вы можете возразить, что такие ошибки должно отрабатывать прикладное ПО.
В идеале это так. В реальности – нечасто. 

Как можно организовать мониторинг в данном случае:
Источник данных 1. Контроль лог файлов операций или журналов транзакций. С последующим контролем через математическую бизнес модель на основе возможных состояний (сонечный автомат) и допустимых операций правильности жизненного цикла этой самой «заявки»
Источник данных 2. Прямой доступ к базам данных - трудоемкий способ, который надо использовать если логи недоступны или как контрольный

Следующим ходом данные контроля связываются с объектами инфраструктуры, которые обеспечивают автоматизацию

И уже может быть понятно, почему у нас сегодня время обработки Заявки выросло на час. Да потому что «упал кластер» базы данных системы А’ и работает только через слабо мощный аварийный резерв. 

Какие средства автоматизации использовать?
Мне известно только о 2-х: HP BPI и IBM BPM.
Ну и о кастомной разработке которую мы сделали специально для заказчика под узкие требования. 

Комментариев нет:

Отправить комментарий