🍏 개발일기

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다를 읽으며..

보배 진 2026. 3. 15. 14:54

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다 | by Hyewon Choi | Feb, 2026 | MUSINSA techblog — 무신사 테크 블로그

 

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다

안녕하세요, 큐레이터 서비스를 담당하고 있는 Partner Growth PM 최혜원, Backend Engineer 권혁주입니다.

techblog.musinsa.com

 

장애 심각도를 사용자 경험 기준으로 정의한 이유

서비스를 운영하다 보면 장애가 발생했을 때 항상 이런 질문이 나온다.
“이 장애 지금 당장 대응해야 하는 건가?”

문제는 기술 지표만으로는 장애의 진짜 심각도를 판단하기 어렵다는 점이다.
예를 들어,

  • 에러율은 높지만 실제로 사용자에게 영향이 없는 경우도 있고
  • 에러율은 낮지만 매출이나 구매 흐름이 막히는 치명적인 장애도 있다.

그래서 무신사에서는 시스템 지표 중심이 아니라 “사용자 경험 기준”으로 장애 심각도를 정의하기로 했다.

 

 

1. 핵심 사용자 여정(CUJ)을 먼저 정의했다

CUJ(Customer User Journey)는 
사용자가 서비스를 이용하면서 반드시 거치는 핵심 흐름을 말한다.

예를 들면 쇼핑 서비스에서는

  • 상품 조회
  • 장바구니
  • 결제

이런 과정이 핵심 사용자 여정이다.

즉, “이 과정이 끊기면 서비스의 핵심 가치가 멈추는가?” 이 기준으로 중요한 흐름을 먼저 정리했다.

 

 

2. CSP와 NON-CSP를 구분했다

모든 기능이 똑같이 중요한 것은 아니다.

그래서 사용자 여정 중에서도

  • CSP (Critical Serving Path)  → 매출, 구매, 전환에 직접 영향을 주는 핵심 경로
  • NON-CSP → 있어도 좋지만 없어도 서비스 자체는 돌아가는 기능

이렇게 나눴다. 예를 들면

결제 실패 → CSP (치명적)

추천 상품 노출 오류 → NON-CSP

 

3. 장애 우선순위를 4단계로 정의했다

사용자 경험에 따라 장애를 다음처럼 나눴다.

P0 (가장 심각) : 고객이 구매나 핵심 기능을 사용할 수 없음

P1 : 사용자 경험이 크게 깨짐

P2 : 일부 기능 오류

P3 (가장 낮음) : 내부 운영 불편 수준

기술 문제가 아니라 “비즈니스 영향 기준”으로 판단하는 구조다.

 

4. 시스템 지표(SLI/SLO)와 연결했다

정의한 심각도를 실제 운영에 쓰기 위해

  • SLI / SLO
  • 모니터링
  • 알림 시스템
  • 대시보드

와 연결했다. 그래서 장애가 발생하면

“에러율이 몇 %인가?” 가 아니라

“사용자의 핵심 경험이 깨졌는가?” 를 먼저 확인하게 되었다.

 

5. 이렇게 바뀐 점

이 방식으로 운영하면서 얻은 변화는 다음과 같다.

  • 장애 대응 속도 빨라짐
  • 팀 간 커뮤니케이션 감소
  • 장애 판단 기준이 명확해짐
  • 기술 지표보다 비즈니스 영향 중심 운영 가능

즉, 장애를 기술 문제가 아니라 ‘고객 경험 문제’로 바라보게 된 것이다.