🚤 Поговорим про скорую помощь
Недавно общался с ребятами со скорой. Мой технический ум(с лёгким налётом аутизма) сразу заметил: процесс выверен до миллисекунд. Хорошая бригада попалась.
Откуда такие практики? Ответ нашёлся в статье 2008 года лондонской детской больнице Great Ormond Street (GOSH).
🚒 В чем суть?
В больнице поняли: передача пациента после операции в реанимацию — самый рискованный момент. Спешка, куча оборудования, потеря информации = риск смерти.
Так как по британскому ТВ крутят только кулинарные шоу и Формулу-1, врачи (вместо работы, естественно) смотрели гонки. И их осенило: пит-стоп — это та же реанимация. Команда за секунды принимает "пациента" (болид), меняет шины и возвращает в гонку.
Врачи полетели в Италию учиться у механиков Ferrari.
🇮🇹 Что узнали (и как это применить в IT):
Единый лидер (The Lollipop Man). На пит-стопе есть мужик с "леденцом" — только он дает команду "Go". В операционных же был хаос.
В IT: Роль Incident Commander при сбоях. Только он принимает решения, чтобы не было "лебедь, рак и щука".
Тишина и протокол. Механики Ferrari работают молча (несмотря на итальянскую любовь к смол-токам). Всё на хореографии. В больнице ввели правило: в критические фазы говорит только один.
В IT: Режим тишины в войс-чате во время on-call инцидентов.
Чек-листы. Знания не должны быть "в голове". Ferrari работает по жестким алгоритмам.
В IT: Пишите Playbooks и Runbooks, они спасут ваш SLA.
Результат: Количество технических ошибок в больнице упало на 42%, ошибок передачи инфы — на 49%.
❣️ Что ещё изучить на эту тему?
Crew Resource Management (CRM).
Откуда: Авиация.
После катастроф 70-х поняли: самолеты падают, потому что второй пилот боится возразить капитану. CRM учит "плоской иерархии".
В IT: Культура Blameless Postmortems.
The Checklist Manifesto.
Книга Атула Гаванде. Эксперты ошибаются.
Простой листок бумаги надежнее памяти гения.
В IT: Pull Request templates, релизные чеклисты.
Toyota Production System (Lean).
Откуда: Автопром.
Концепция "Андон" — любой рабочий может дёрнуть шнур и стопнуть конвейер при браке.
В IT: Fail Fast. Пайплайн должен падать сразу, любой может стопнуть релиз.
Google SRE: Incident Command System.
Откуда: Пожарные (NIMS).
Четкое разделение: Commander (управляет), Ops (чинит руками), Comms (общается с клиентами).
Прямой наследник идей Ferrari.
Chaos Engineering (Netflix).
Если Ferrari тренирует пит-стопы, то Netflix "тренирует" сбои, специально ломая прод (Chaos Monkey). Учения, доведенные до автоматизма.
Премию за SLA в 4 девятки можете скинуть мне на счет.
#sre
Недавно общался с ребятами со скорой. Мой технический ум
Откуда такие практики? Ответ нашёлся в статье 2008 года лондонской детской больнице Great Ormond Street (GOSH).
🚒 В чем суть?
В больнице поняли: передача пациента после операции в реанимацию — самый рискованный момент. Спешка, куча оборудования, потеря информации = риск смерти.
Так как по британскому ТВ крутят только кулинарные шоу и Формулу-1, врачи (вместо работы, естественно) смотрели гонки. И их осенило: пит-стоп — это та же реанимация. Команда за секунды принимает "пациента" (болид), меняет шины и возвращает в гонку.
Врачи полетели в Италию учиться у механиков Ferrari.
🇮🇹 Что узнали (и как это применить в IT):
Единый лидер (The Lollipop Man). На пит-стопе есть мужик с "леденцом" — только он дает команду "Go". В операционных же был хаос.
В IT: Роль Incident Commander при сбоях. Только он принимает решения, чтобы не было "лебедь, рак и щука".
Тишина и протокол. Механики Ferrari работают молча (несмотря на итальянскую любовь к смол-токам). Всё на хореографии. В больнице ввели правило: в критические фазы говорит только один.
В IT: Режим тишины в войс-чате во время on-call инцидентов.
Чек-листы. Знания не должны быть "в голове". Ferrari работает по жестким алгоритмам.
В IT: Пишите Playbooks и Runbooks, они спасут ваш SLA.
Результат: Количество технических ошибок в больнице упало на 42%, ошибок передачи инфы — на 49%.
❣️ Что ещё изучить на эту тему?
Crew Resource Management (CRM).
Откуда: Авиация.
После катастроф 70-х поняли: самолеты падают, потому что второй пилот боится возразить капитану. CRM учит "плоской иерархии".
В IT: Культура Blameless Postmortems.
The Checklist Manifesto.
Книга Атула Гаванде. Эксперты ошибаются.
Простой листок бумаги надежнее памяти гения.
В IT: Pull Request templates, релизные чеклисты.
Toyota Production System (Lean).
Откуда: Автопром.
Концепция "Андон" — любой рабочий может дёрнуть шнур и стопнуть конвейер при браке.
В IT: Fail Fast. Пайплайн должен падать сразу, любой может стопнуть релиз.
Google SRE: Incident Command System.
Откуда: Пожарные (NIMS).
Четкое разделение: Commander (управляет), Ops (чинит руками), Comms (общается с клиентами).
Прямой наследник идей Ferrari.
Chaos Engineering (Netflix).
Если Ferrari тренирует пит-стопы, то Netflix "тренирует" сбои, специально ломая прод (Chaos Monkey). Учения, доведенные до автоматизма.
Премию за SLA в 4 девятки можете скинуть мне на счет.
#sre