article cover image

2025 IT recap: 장애, 해킹의 타임

작성일 : 이소현 December 19, 2025

기본 설계의 중요성을 깨닫는 시간

Intro: 대 해킹, 장애의 시대

 

벌써 한해가 마무리되고 있습니다. 여러분에게 올 한 해는 어떻게 기억되실 것 같나요?

IT 산업에서 일하는 저에게는 “이렇게까지 해킹이랑 장애가 많이 일어난 해가 있었나?” 싶을 정도의 한 해였습니다. 올해는 거의 “대해킹, 장애의 시대”라고 불러도 될 정도로, 하루가 멀다하고 사건이 터졌습니다. 오늘은 2025년 한 해 동안 발생한 개인정보 해킹과 IT 시스템 장애를 되짚어 보며, IT 조직과 서비스 운영자라면 다가오는 뉴노멀을 어떻게 준비해야 할지 함께 알아봅시다.
 

2025년 초부터 지금까지 클라우드 장애, 개인정보 해킹 이슈가 셀 수 없이 쏟아지고 있는데요. 월별 타임라인으로 정리해보면 1월부터 12월까지 거의 매달 크고 작은 해킹 사고가 있었다는 걸 한눈에 확인할 수 있습니다.

 

2025_security_leak_timeline.png

월별로 보면 사건은 달랐지만, 구조는 놀라울 만큼 비슷했습니다.
대부분은 인증·권한·네트워크 같은 ‘기초 인프라 계층’에서 시작됐고, 그 여파가 SaaS와 사용자 경험 전반으로 확산됐습니다.

 

2025, 그렇게 자주 멈췄나?

 

2025년은 “인터넷이 생각보다 자주 멈추는 해”였다고 해도 과장이 아닙니다. 글로벌 클라우드 사업자의 인증·네트워크 장애와 CDN·DNS 업체의 사고, 그리고 모니터링·APM 서비스 장애가 연달아 발생하면서, 챗GPT·X·유튜브·배달의민족·게임 서비스 등 일상에서 쓰는 서비스들이 한날한시에 멈추는 모습이 여러 차례 반복됐습니다. 
특히 11월 클라우드플레어 글로벌 장애와 10월 AWS us-east-1 장애는 각각 전 세계 수많은 웹사이트와 앱에 동시다발적인 접속 오류를 일으키며 “인터넷 대란”이라는 표현까지 불러왔습니다.​ 자세한 장애 내용은 예전 뉴스레터에서 다루었기에 간단하게 소개만 하고 넘어갑니다.

 

 

이 사건들이 이전과 달랐던 점은, 장애의 “범위”와 “연결성”이 훨씬 더 적나라하게 드러났다는 것입니다. 한 번의 클라우드·CDN 장애가 곧바로 수십, 수백 개의 SaaS와 앱 중단으로 이어지는 도미노 다운타임 패턴이 뚜렷하게 나타났고, 단일 리전의 IAM 오류나 API 설정 변경이 인증, 결제, 로그인, AI API까지 줄줄이 흔들리면서 글로벌 인터넷 트래픽의 상당 부분이 동시에 영향을 받았습니다. 그 결과 인프라 팀뿐 아니라 보안, 서비스 기획, CS, 심지어 홍보·법무까지 전사적으로 비상 대응에 나서야 하는 상황이 자주 벌어졌고, 여러 연말 리포트에서 2025년을 “대규모 클라우드·인터넷 장애의 해”로 정의하기에 이르렀습니다.​

전에도 시스템 장애는 있었습니다. 하지만 2025년의 장애는 하나의 시스템 문제가 아니라, 연결된 생태계 전체가 동시에 흔들리는 장애였다는 점에서 성격이 달랐습니다.

 

왜 같은 장애를 반복했을까

 

올해 발생한 굵직한 장애들을 기술적으로 뜯어보면, 완전히 새로운 이슈라기보다알고 있지만 지키기 어려운 원칙”이 어긋난 경우가 많았습니다. 잘못된 설정 변경, 점진적 롤아웃 없이 전면 배포된 컨트롤 플레인 업데이트, 장애를 키운 모니터링 블라인드 스팟 등이 대표적입니다.


또 하나 눈에 띄는 공통점은단일 장애 지점(Single Point of Failure)이 생각보다 여전히 많이 남아 있었다는 점입니다. 특정 리전에 과도하게 집중된 트래픽, 한 벤더의 인증·DNS·CDN에 지나치게 의존하는 구조, 그리고 멀티클라우드/하이브리드라고 부르지만 실제로는 페일오버 시나리오와 데이터 동기화 전략이 정교하게 설계되지 않은 환경들이 연달아 드러났습니다.

Gemini_Generated_Image_krv4h4krv4h4krv4.png


특히 한 번의 클라우드 장애가 곧바로 수십, 수백 개의 SaaS와 앱 중단으로 이어지는 “도미노 다운타임패턴이 뚜렷하게 나타났습니다. 특정 리전의 IAM 오류나 API 설정 문제에서 출발한 이벤트가 CDN, 결제, 로그인, AI API까지 함께 흔들어 놓으면서, 인프라 팀뿐 아니라 보안, 서비스 기획, CS까지 전사적으로 대응해야 하는 상황이 자주 만들어졌습니다.

기본 설계가 중요하다

 

GenAI의 발전에 따라, 하루하루 신기술의 발전도 중요하지만 기본 설계 원칙의 중요성을 다시 배우게 한 해였습니다. 2026년을 준비하는 지금, 우리 조직은 ‘잘 동작할 때’가 아니라 ‘망가졌을 때’를 기준으로 시스템을 설계하고 있는지 한 번쯤 점검해볼 시점입니다.

오늘도 긴 글 읽어주셔서 감사합니다. 2025년 잘 마무리하시고 2026년에 만나요!

 

참고 자료

https://www.techupkeep.dev/blog/cloud-outages-2025-ai-infrastructure

https://aws.plainenglish.io/cloud-outages-the-unpopular-truth-no-one-wants-to-hear-026cbd17231e

https://gibraltarsolutions.com/blog/reflecting-on-2025-lessons-learned-from-it-the-disasters-of-the-year/

https://www.crn.com/news/cloud/2025/the-10-biggest-cloud-outages-of-2025-so-far?page=2

 

 

presentation