BLOG

AMS의 운영 최적화(operational excellence)를 통해 클라우드 투자 가치를 극대화하는 법
작성일: 2021-09-13

이번 포스팅에서는 조직이 AWS로 마이그레이션하는 과정에서 운영 최적화(operational excellence)를 달성하는 것이 클라우드 비즈니스 목표를 실현하는 데 어떠한 도움을 줄 수 있는지 살펴보려고 합니다. 먼저, AWS Managed Services (AMS)가 운영 최적화를 달성하기 위해 사용하는 5가지 설계 원칙에 대해 알아보겠습니다.

 

아마존은 고객에 대한 집착, 발명에 대한 열정, 운영 최적화에 대한 몰입, 그리고 장기적인 관점의 사고라는 네 가지 원칙을 지킵니다. 그중 운영 최적화의 관점에서는 다음과 같은 비즈니스 이점을 얻을 수 있습니다.

 

  • 최종 사용자에 대한 서비스 품질과 가용성의 향상
  • 장애 복구 시간 단축
  • 새로운 인프라를 구축하고 새로운 서비스를 제공하는 시간의 단축
  • 비즈니스 위험 감소 및 산업 표준 준수 용이

 

 

클라우드 마이그레이션에서 운영 최적화의 중요성

 

AWS Well-Architected Framework는 고객이 그들의 애플리케이션과 업무를 위해 안전하고 성능이 좋으면서 탄력적이고 효율적인 인프라를 구축하는 데 도움을 줍니다.

클라우드 마이그레이션을 계획할 때 보통 보안, 안정성, 성능 및 비용 최적화 등에 많은 초점을 두는데요, 그중 Operational Excellence(운영 최적화)는 정말 중요한 요소로써, 비즈니스 가치를 제공하고 프로세스를 지속적으로 개선하기 위한 시스템을 실행하고 모니터링하는 데 필수적입니다.

사전에 구축된 거버넌스와 모범 사례를  AWS Control Tower 를 통해 학습하여 클라우드 마이그레이션을 가속화하고,  AWS Service Catalog 및 AWS CloudFormation을 통해 인프라 프로비저닝을 가속화할 수 있습니다. 또한, 보안 관리를 위해 Amazon GuardDuty 및 Amazon Macie 와 같은 서비스를 사용할 수도 있습니다.  AWS Management and Governance servicesAWS OrganizationsAmazon CloudWatchAWS CloudTrailAWS ConfigAWS Systems Manager (SSM), AWS Cost Explorer 등을 포함하고 있습니다. 이러한 서비스는 비즈니스 민첩성과 거버넌스 제어의 균형을 달성하는 데 도움이 될 수 있지만, 한편으로는 클라우드 운영 모델의 니즈를 충족하기 위해 수많은 서비스들을 조율해야 한다는 번거로움이 있습니다.

 

클라우드 운영 확장과 관련하여 IT 조직은 인프라와 애플리케이션 간 장애의 근본적인 원인을 규명하는 데 어려움을 겪고 있는데요, 모니터링에 적합한 인프라 메트릭과 문제를 발생시키는 인프라 메트릭을 알아차리기 어렵다는 것이 그 이유입니다. 또 다른 과제는 보안 및 규정 준수와 관련된 현재의 상태를 사전에 평가하고 개선을 추진하는 것입니다. 운영 구성을 설정한 후, IT 조직은 증가하는 AWS 계정 환경에서 패치, 백업 및 호스트 보안을 관리하는 것이 부담스러워질 수 있기 때문입니다.

 

 

운영 최적화에 초점을 맞추면 다음과 같이 비즈니스 목표에 직접적으로 영향을 미치는 문제들을 해결할 수 있습니다.

 

  • 보안 및 데이터 침해
  • 운영 준비 부족으로 인한 대규모 애플리케이션 마이그레이션의 중단
  • 애플리케이션 및 인프라 사고 및 장애에 대한 end-to-end runbooks의 부재
  • 전사적 비용 관리 정책 및 절차의 부재로 인한 인프라 비용의 부담
  • 감사 및 규정 준수 보고서를 지원하기 위한 작업의
  • 애플리케이션 팀을 위한 새로운 자원 계정 설정을 완료하기 위한 긴 리드 타임

 

AMS를 통해 AWS는 AWS 관리 및 거버넌스 서비스와 Amazon GuardDuty 및 Amazon Macie 와 같은 보안 서비스의 통합을 통해 클라우드 인프라 운영을 자동화했습니다.

 

 

클라우드 투자를 보호하기 위한 운영 모범 사례 구현

 

Well-Architected Framework에 의해 요약된 운영 최적화를 위한 설계 원칙을 통합한 이후에는 클라우드 플랫폼이 프로덕션 준비가 되었는지 확인해야 합니다. 이는 결과적으로 비용 효율성 및 개선된 서비스 KPI(고가용성, 높은 안정성, 높은 민첩성)와 같은 비즈니스 이점을 실현하는 데 도움이 됩니다.

 

다음으로는 AMS가 클라우드에서 안전하게 운영될 수 있도록 사용하는 Well-Architected Operational Excellence의 5가지 설계 원칙을 살펴보겠습니다.

 

OS 수준의 패치 및 백업을 수동으로 수행하는 것은 시간이 많이 걸리고 오류가 발생하기 쉬우며 비용이 많이 든다는 문제점이 있습니다. 그러나 자동화를 기반으로 구축된 클라우드 작업을 통해서는 장애 이벤트를 식별하고 일관되게 문제를 해결하는 것이 가능해집니다. 이를 통해 문제를 사전에 모니터링하고 전반적인 서비스 SLA 및 가동 시간을 개선할 수 있을 뿐만 아니라 인프라 운영 팀의 운영 부담까지 덜 수 있게 됩니다.

AWS Systems Manager를 사용하여 미리 설정된 패치 베이스라인과 패치 윈도우를 기반으로 패칭을 자동화할 수 있으며, AWS Backup을 사용하여 백업 플랜의 가동 또한 자동화할 수 있습니다.

 

AWS는 자동화된 운영 작업을 구성하고 난 뒤에 백업에서 자동 복원이 작동하고 패치 오류가 보고 및 수정되고 있는지 확인하여 구현을 검증할 것을 권장하고 있습니다. 규정 준수를 모니터링하기 위해 모든 계정에서 패치 및 백업 규정 준수에 대한 자동화된 보고가 있어야 합니다.  AMS는 백업 및 패치 규정 준수를 모니터링하고 실패 시 자동적으로 수정하기 위해 범위가 축소된 IAM(Identity and Access Management) 역할, AWS 백업, 아마존 클라우드워치 및 SSM 문서의 조합을 통하여 자동화를 수행합니다. AMS는 엄격한 업계 규정 요구 사항이 있는 대규모 금융 조직이 클라우드에서 패치 규정 준수를 개선하도록 돕고 있습니다. 일부 기업은 패치 규정 준수를 30% 개선했고, 100% 패치 및 백업 규정 준수를 달성할 수 있었습니다.

 

  • 쉽게 되돌릴 있도록 자주, 작은 변화를 만들기

서비스 운영을 설계할 때 변경 관리를 고려하지 않으면 확인되지 않은 변경으로 인해 보안이나 환경 및 최종 고객의 상태가 손상될 수 있습니다. 따라서 적절한 변경 거버넌스 및 보안을 용이하게 하는 방식으로 변경 관리 프로세스 및 도구를 계획해야 합니다. 증분식으로 변경하게 되면 이러한 변경 사항을 추적할 수 있고 필요에 따라 쉽게 되돌릴 수도 있습니다. AWS는 운영자가 권한이 부여된 리소스만 변경하거나 액세스할 수 있도록 범위를 축소한 IAM 역할을 가질 것을 권장합니다. 또한, AWS CloudFormation 또는 AWS Service Catalog를 통해 인프라 변경을 자동화할 것을 권장합니다.

 

새 IAM 역할 생성과 같이 환경 보안을 잠재적으로 손상시킬 수 있는 변경 사항에 가드레일을 적용하고 있는데요, AMS는 규범적인 인프라 변경 관리를 원하는 의료 및 재무 관리 회사를 도왔습니다. 고객이 인프라 또는 구성에 대한 변경을 요청하면 AMS는 자동화를 사용하여 변경을 완료하고 감사할 수 있도록 AWS CloudTrail에 변경 사항을 기록합니다. AMS 보안 팀은 또한 고객과 협력하여 관리되는 환경의 고위험 변경 사항을 안내합니다. 한 AMS 고객은 구성 변경 사항을 3,100개로 롤아웃할 수 있었습니다.

일례로, 한 AMS 고객은 8시간도 채 안돼서 33개의 프로덕션 계정에서 3,100개의 Amazon Simple Storage Service (Amazon S3) 버킷을 롤아웃할 수 있었습니다.

S3 버킷에 대한 구성 업데이트는 작았지만 AMS 변경 관리 시스템을 통해 우리는 맞춤형 보안 규정 준수 자동화를 개발하여 대규모 변경 사항을 조정하고 검증할 수 있었습니다. AMS에는 전체 롤백 기능과 로깅도 포함되어 있어 변경 사항에 대한 완전한 회계 감사를 할 수도 있습니다.

 

클라우드 작업을 설정한 후 자주 테스트하고 수정하여 실패에 대한 준비가 되어 있는지 확인해야 합니다. 이렇게 하면 모든 절차가 효과적이며 팀이 이 절차를 잘 알고 있는지 확인할 수 있습니다. 또한, 새로 출시된 제품 기능에 대한 운영 실사를 완료하고, 현재 운영 모델에 공백이 없도록 하는 데도 큰 도움이 됩니다.

특히, 애플리케이션 안정성과 가용성을 위해 정기적인 모의 연습을 통하여 애플리케이션 소유자, 보안 및 인프라 팀과 협력하는 것이 중요합니다.  AMS에 온보딩하는 동안 고객은 운영 게임 데이 연습을 통해 인프라 및 애플리케이션 팀과 함께 클라우드에서 운영 프로세스를 검증합니다. 모든 학습 내용은 운영 런북에 통합됩니다. AMS는 또한 표준화되고 자동화된 도구 및 프로세스를 제공하여 재해 복구(DR) 연습을 정기적으로 구현하는 고객을 지원했습니다. AMS 기업 고객은 애플리케이션 스택에 대한 DR 연습을 온프레미스 환경에서는 24시간이 소요되었던 것에 비해 1.5시간 만에 완료할 수 있었습니다.

 

머피의 법칙에 따르면 잘못될 수 있는 모든 일은 결국 잘못된다고 하죠. 그러나 프로덕션에 들어가기 전에 관련된 모든 팀과 함께 사고 대응 절차를 테스트하면 서비스 실패의 영향을 줄일 수 있습니다. 따라서 사전 모니터링 및 자동화된 수정을 염두에 두고 인프라 운영을 설계해야 합니다. 또한, AWS는 OS 및 애플리케이션 수준에서 장애를 감지하고 장애를 격리하기 위해 모니터링해야 하는 적절한 지표 및 성능 지표를 식별하기 위해 반복할 것을 권장하고 있습니다. 정의된 계획을 실행하면 오류가 줄어들고 가동 중지 시간이 줄어들 것입니다.

 

AMS는 Amazon CloudWatch 및 Amazon GuardDuty를 사용하여 AWS 리소스의 장애, 성능 저하 및 보안 문제를 사전에 모니터링하는 일련의 큐레이션된 모니터링 경고를 배포합니다. 모니터링 기준선은 경고에 노이즈가 너무 많거나 새로 알려진 오류 트리거가 누락되지 않도록 자주 보정됩니다. 사고가 발생할 경우, AMS 운영자는 근본적인 원인을 찾기 위해 데이터를 VPC Flow Logs, AWS CloudTrail 로그, Amazon CloudWatch, AWS Systems Manager OpsCenter 및 AWS Health와 같은 AWS 툴링과 연관시킵니다.

장애가 감지된 경우, AMS 사전 경고 및 자동화된 수정을 통해 서비스에 영향을 미치는 사고를 60% 감소할 수 있었습니다. 또한, AMS는 서비스에 영향을 줄 수 있는 모든 인프라 관련 사고의 약 70%를 사전에 고객에게 통지하여 서비스 영향 시간을 75%까지 단축합니다.

 

  • 실패를 통해 배우기

적절한 도구 및 수정이 이루어지지 않으면 잘못된 구성, 시끄러운 경보로 인한 중요한 지표 누락, 실수로 계정 로그인 비활성화 등과 같은 운영 오류가 발생할 수 있으며, 이러한 실패는 보안 모니터링을 손상시킬 수 있습니다. AWS에서는 이러한 유형의 오류를 지속적으로 추적하고 기본 구성에 이러한 검사를 포함하도록 클라우드 작업 Runbook을 주기적으로 업데이트할 것을 권장하고 있습니다.

AMS는 9개의 자동화 플라이휠을 통해 고객의 운영 개선을 주도합니다. 또한, 수동 작업을 지속적으로 식별하고 이러한 작업을 자동화하여 인적 오류의 위험을 줄이고 운영 비용을 절감합니다.

 

 

 

결론

워크로드를 클라우드로 마이그레이션하는 조직의 경우 운영 최적화는 비즈니스 목표를 달성하는 데 매우 중요합니다. AWS 서비스를 사용하여 자체적으로 운영 최적화 설계 원칙을 구현할 수도 있지만, 이 프로세스는 시간이 많이 소요되며 IT 팀이 더 중요한 클라우드 채택 이니셔티브를 놓치는 결과를 낳을 수도 있습니다.  AMS 운영자를 사용하여 차별화되지 않은 운영 작업을 처리하면 시간을 확보하여 엔터프라이즈 셀프 서비스 배포 및 가속화된 클라우드 마이그레이션, 애플리케이션 현대화 및 장기 비용 최적화와 같은 비즈니스 결과에 집중할 수 있습니다.

 

도움이 필요하시다면 운영 격차를 해소하고 자동화를 사용하여 클라우드에서 운영 가능한 애플리케이션으로 신속하게 전환할 수 있는 AMS 운영 계획을 고려해 보세요!

원문URL: https://aws.amazon.com/ko/blogs/mt/maximize-cloud-investment-value-through-operational-excellence-using-aws-managed-services/

 

메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글이나 관련 기사 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.