Парадигма контрольной точки: Предисловие к разбору инцидентов
19 марта 2014 г.
Автор: John Allspaw
I am currently a co-founder of Adaptive Capacity Labs, LLC. Previously, I was Chief Technology Officer at Etsy
Я твердо убежден, что в начале каждого группового разбора инцидентов (например, "postmortem встреч") нужно проговаривать наши ценности, цели и точку зрения. Это помогает новичкам понять, как мы смотрим на этот процесс и какую цель преследуем, проводя такие разборы.
Недавно я наткнулся на похожий базовый диалог из совершенно другой области и решил поделиться...
-
Риск присутствует во всем, что мы делаем. Единственный способ избежать всех рисков или быть на 100% в безопасности — это вообще ничего не делать. Других вариантов нет.
-
То, как сотрудники (на любом уровне) воспринимают, предвидят, интерпретируют и реагируют на риски, системно связано с условиями, которые определяются дизайном рабочих процессов, системами, особенностями и культурой организации.
-
"Риск не существует где-то "снаружи", независимо от наших умов и культуры, в ожидании измерения. Люди придумали концепцию "риска", чтобы помочь себе понимать опасности и неопределенности жизни и справляться с ними. Эти опасности реальны, но не существует такого понятия как "реальный риск" или "объективный риск"."*
-
Лучшее определение "безопасности" — это разумность риска. Это ощущение. Это не абсолют. Это личное и контекстуальное понятие, которое будет различаться у разных людей даже в идентичных ситуациях.
-
Хотя безопасность — важная часть бизнес-практики, наша организация существует не для того, чтобы быть безопасной или защищать сотрудников. Мы существуем, чтобы выполнять нашу миссию максимально эффективно — зная при этом, что многие наши действия по своей природе рискованны (например, развертывание кода, миграция данных, коммиты в код, дежурства on-call, редактирование конфигураций и даже простое подключение устройства к сети).
-
Ошибки, промахи и упущения — это нормальное и неизбежное человеческое поведение. Так же, как оптимизм и фатализм. Так же, как желание срезать углы, чтобы сэкономить время и усилия. Так же, как недооценка и переоценка рисков. Несмотря на это, наши рабочие системы обычно спроектированы для идеального работника, а не для обычного человека.
-
По сути, каждая мера снижения риска (каждая мера предосторожности) несет определенную "стоимость" для производительности или компромисс в эффективности. Один из самых очевидных примеров — стоимость обучения. Сотрудники на всех уровнях (администраторы, консультанты по безопасности, проектировщики систем и линейные сотрудники) постоянно — и часто подсознательно — оценивают, балансируют, оптимизируют, управляют и принимают эти тонкие и нюансированные компромиссы между безопасностью и производительностью.
-
Все успешные системы, организации и люди со временем склоняются к эффективности, а не к тщательности (к производительности, а не к защите) — до тех пор, пока что-то не произойдет (обычно авария или близкий к ней случай), что изменит их восприятие риска. Именно эта креативность и стремление к эффективности делают людей, компании и организации успешными.
-
Наша естественная интуиция (здравый смысл) подсказывает нам оценивать успех и неудачу по результатам и строить программы безопасности на основе результатов. Это близорукий и в конечном счете опасный подход. Использование науки управления рисками более мощное и надежное. Важно понимать: управление рисками полностью сосредоточено на управлении рисками, а не результатами. Управление рисками противоречит интуиции.
-
Сотрудники, непосредственно вовлеченные в инцидент, не ожидали, что авария произойдет. Они ожидали положительного результата. Если это не так, то вы имеете дело не с аварией.
*Пол Словик (Paul Slovic), цитата из книги Даниэля Канемана "Думай медленно... решай быстро" (Farrar, Straus and Giroux, 2011), стр. 141.
Текст выше взят из Руководства по внедрению фасилитированного анализа для обучения, Лесная служба США, Операции по борьбе с лесными пожарами.
