SLO, инциденты и прод: где заканчивается DevOps и начинается SRE | «В SREду на кухне» | AvitoTech
В SREду на кухне — подкаст, в котором инженеры из Авито и приглашенные гости обсуждают, что такое SRE и как его готовить. В пилотном эпизоде обсуждаем, почему вокруг DevOps и SRE так много шума и где проходит грань между этим профессиями. Можно ли сказать, что SRE — это «DevOps на стероидах»? Что такое инженерная культура в контексте DevOps и SRE? И кто инициирует переход с одной методологии на другую — топ-менеджмент, техдиректор или сами инженеры? Ведущие: Михаил Савин, SRE Community Lead в Авито Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито Александр Глухих, TeamLead в юните Incident & Problem Managment в Авито Антон Быстров, ведущий DevOps в Cloud.ru Больше о технологиях и инженерной культуре в Авито можно узнать здесь: Telegram канал — https://clc.to/cozDKw Хабр — https://clc.to/0yn3-g Митапы — https://clc.to/Be-_tg GitHub — https://clc.to/BzsVZA В выпуске упомянуты: AvitoPlato — https://clc.to/0fQkXw Static Fallback — https://clc.to/re_R_w 00:00:00 — Приветствие 00:01:43 — Что такое DevOps и SRE на самом деле 00:03:10 — Кто отвечает за прод: DevOps или SRE? 00:06:15 — Разные культуры: скорость vs надёжность 00:08:04 — Аналогия с «Троном»: за кого воюет SRE 00:10:35 — Автоматизация и размер компании 00:11:33 — Как принимают решения DevOps и SRE 00:12:29 — Где DevOps заканчивается и начинается SRE 00:13:25 — Наблюдаемость: кому она нужна больше 00:13:48 — Техметрики vs бизнес-метрики 00:15:28 — Зачем добавлять бизнес-метрики 00:17:21 — Кто инициирует переход к SRE 00:18:49 — Почему внедрение SRE не всегда работает 00:20:07 — Как инженеры сами приходят к SRE 00:25:02 — Осознанность бизнеса и инженеров 00:25:42 — Когда SRE нет, но SLA нужен 00:26:28 — SLA как «кипящее молоко» 00:27:51 — Нужен ли SLA маленьким компаниям 00:28:45 — Кто такой SLA-инженер на самом деле 00:30:03 — Когда и кому нужен HA 00:31:20 — Когда пора внедрять DevOps и SLA 00:32:33 — Сколько стоит зрелость SLA 00:35:17 — Баланс скорости и надёжности 00:37:45 — Золотое правило внедрения SRE 00:38:37 — Типичные ошибки: карго-культ и «переобувание» 00:40:07 — Зачем вам вообще SRE и DevOps? 00:41:07 — Искажение метрик и разные цели команд 00:42:38 — Культура SRE: кто должен писать YAML 00:43:00 — Компетенции SRE и DevOps: кто что делает 00:47:31 — Российский рынок: зрелость и реальность 00:51:26 — Дефицит сеньоров: почему кадров не хватает 00:53:24 — Observability: метрики, логи, трейсы 00:54:24 — Почему Observability — самый сложный домен 00:55:33 — Навыки SRE: SDLC, безопасность и DevSecOps 00:57:06 — Архитектура и общение с командой 00:58:31 — Тестирование, UX и язык бизнеса 00:59:22 — Как писать и читать SLO правильно 01:02:25 — Практики Авито: хаос-тесты, канарейки, фулбеки 01:03:56 — Пайплайны, облако и мониторинг 01:05:01 — Как измеряют надёжность пользовательских сценариев 01:05:56 — Учения: отключения ДЦ и стресс-тесты 01:06:48 — Бизнесовые vs дефолтные метрики 01:08:42 — Заключение
В SREду на кухне — подкаст, в котором инженеры из Авито и приглашенные гости обсуждают, что такое SRE и как его готовить. В пилотном эпизоде обсуждаем, почему вокруг DevOps и SRE так много шума и где проходит грань между этим профессиями. Можно ли сказать, что SRE — это «DevOps на стероидах»? Что такое инженерная культура в контексте DevOps и SRE? И кто инициирует переход с одной методологии на другую — топ-менеджмент, техдиректор или сами инженеры? Ведущие: Михаил Савин, SRE Community Lead в Авито Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито Александр Глухих, TeamLead в юните Incident & Problem Managment в Авито Антон Быстров, ведущий DevOps в Cloud.ru Больше о технологиях и инженерной культуре в Авито можно узнать здесь: Telegram канал — https://clc.to/cozDKw Хабр — https://clc.to/0yn3-g Митапы — https://clc.to/Be-_tg GitHub — https://clc.to/BzsVZA В выпуске упомянуты: AvitoPlato — https://clc.to/0fQkXw Static Fallback — https://clc.to/re_R_w 00:00:00 — Приветствие 00:01:43 — Что такое DevOps и SRE на самом деле 00:03:10 — Кто отвечает за прод: DevOps или SRE? 00:06:15 — Разные культуры: скорость vs надёжность 00:08:04 — Аналогия с «Троном»: за кого воюет SRE 00:10:35 — Автоматизация и размер компании 00:11:33 — Как принимают решения DevOps и SRE 00:12:29 — Где DevOps заканчивается и начинается SRE 00:13:25 — Наблюдаемость: кому она нужна больше 00:13:48 — Техметрики vs бизнес-метрики 00:15:28 — Зачем добавлять бизнес-метрики 00:17:21 — Кто инициирует переход к SRE 00:18:49 — Почему внедрение SRE не всегда работает 00:20:07 — Как инженеры сами приходят к SRE 00:25:02 — Осознанность бизнеса и инженеров 00:25:42 — Когда SRE нет, но SLA нужен 00:26:28 — SLA как «кипящее молоко» 00:27:51 — Нужен ли SLA маленьким компаниям 00:28:45 — Кто такой SLA-инженер на самом деле 00:30:03 — Когда и кому нужен HA 00:31:20 — Когда пора внедрять DevOps и SLA 00:32:33 — Сколько стоит зрелость SLA 00:35:17 — Баланс скорости и надёжности 00:37:45 — Золотое правило внедрения SRE 00:38:37 — Типичные ошибки: карго-культ и «переобувание» 00:40:07 — Зачем вам вообще SRE и DevOps? 00:41:07 — Искажение метрик и разные цели команд 00:42:38 — Культура SRE: кто должен писать YAML 00:43:00 — Компетенции SRE и DevOps: кто что делает 00:47:31 — Российский рынок: зрелость и реальность 00:51:26 — Дефицит сеньоров: почему кадров не хватает 00:53:24 — Observability: метрики, логи, трейсы 00:54:24 — Почему Observability — самый сложный домен 00:55:33 — Навыки SRE: SDLC, безопасность и DevSecOps 00:57:06 — Архитектура и общение с командой 00:58:31 — Тестирование, UX и язык бизнеса 00:59:22 — Как писать и читать SLO правильно 01:02:25 — Практики Авито: хаос-тесты, канарейки, фулбеки 01:03:56 — Пайплайны, облако и мониторинг 01:05:01 — Как измеряют надёжность пользовательских сценариев 01:05:56 — Учения: отключения ДЦ и стресс-тесты 01:06:48 — Бизнесовые vs дефолтные метрики 01:08:42 — Заключение
