'MS 클라우드 오류'로 인해 일부 저비용 항공사(LCC)를 중심으로 발권·예약 시스템이 마비된 지난 7월 19일 오후 제주국제공항 3층 출발장 자동 발권기에서 제주항공 티켓 오류 메시지를 출력하고 있다.
(사진=뉴시스)
2021년 11월 12일 대한항공 자회사 진에어의 항공편을 이용할 예정이었던 수천 명은 인천, 김포공항 등에서 발을 동동 굴렀습니다.
진에어의 서버가 먹통이 되면서 공항 카운터에서 항공권 발권이 정지됐기 때문입니다.
당시 진에어 직원이 총동원돼 탑승권을 수기로 작성해 현장 진화에 나섰습니다.
그리고 3년 뒤인 올해 7월 4일 유사한 사건이 제주항공, 에어프레미아, 이스타항공에서도 일어났습니다.
이유는 달랐습니다.
제주, 이스타항공, 에어프레미아의 항공권 발권 및 예약 시스템이 마비된 건 이들이 사용하는 국외 클라우드 사업자가 빌려쓰는 마이크로소프트(MS) 데이터센터에서 오류가 났기 때문이었습니다.
원인은 달랐어도 진에어, 제주항공 등의 공통점은 '서버 먹통'이라는 외부 요인이 작용했을 때 내부적으로 이를 즉각적으로 대응해 회복할 수 있는 힘이 없었다는 것입니다.
항공사들이 서버 장애를 인지하고 이를 해소, 정상영업까지 걸린 시간은 대략 24시간이었습니다.
항공사들이 정상영업까지 회복할 수 있는 시간을 최단으로 끌어올리기 위해서는 사업연속성계획(BCP) 수립은 물론 점검이 일상화가 필요해보입니다.
회복시간이 늦어질수록 기업의 고객이탈, 대규모 소송 등과 같은 리스크는 더 커지기 때문입니다.
모건스탠리는 2001년 9.11 테러라는 최악의 재난 상황에서도 BCP를 통해 다음날 정상영업했습니다.
이것이 가능했던 이유는 1993년 세계무역센터(WTC) 테러를 경험하고 그 이후 대형재난 발생 가능성을 인식, BCP를 수립했기 때문입니다.
그리고 매년 BCP 테스트와 실행력을 유지하고 있습니다.
언제든 WTC 테러, 9.11테러와 같은 재난이 발생해도 정상영업할 수 있는 준비된 상태를 갖춘 것이죠.
BCP(Business Continuity Plan)란, 재해·재난으로 인한 기업의 사업 중단 상황에 대비해 조직의 핵심 업무를 제한된 시간 내에 복구하고 재개할 수 있도록 문서화된 절차를 말합니다.
사실상 BCP는 기업이 재해·재난 발생 시 회복할 수 있는 골든타임을 놓치지 않기 위한 절차라고도 볼 수 있습니다.
보안업계 한 관계자는 "BCP를 구축해 놓으면 서버 마비와 같은 재난 발생 시 항공사들은 매출과 직결되는 핵심 업무인 '보딩 패스 발권 및 예약 시스템' 수준에서는 초단시간으로 회복할 수 있을 것"이라고 말했습니다.