BLOG

Amazon SageMaker DeepAR은 이제 결측치, 범주형 및 시계열 특징, 일반화된 주파수를 지원합니다.
작성일: 2018-07-27

Amazon SageMaker에서 DeepAR의 몇가지 새로운 기능을 출시할 것입니다. DeepAR는 확률적 예측을 하기 위해 재귀 신경망(RNN)을 사용하여 시계열 예측 또는 예측을 위한 감독된 기계 학습 알고리즘입니다. 이 알고리즘은 출시된 이후 다양한 유스 케이스에 사용되어 왔습니다. 개발자들에게 결측치 지원, 사용자가 제공한 시계열 특징, 다중 범주형 특징 및 일반화된 주파수와 같은 새로운 기능에 대한 액세스 권한을 부여하게 되어 기쁩니다.

 

예측은 도처에 있습니다.

예측은 많은 산업들의 사업 과정을 개선할 수 있습니다. 이를 통해 기계 학습(ML)과 인공 지능(AI)을 사용하여 자동화 및 최적화 분야에 이상적인 진입 지점을 예측할 수 있습니다. 제품 수요 예측을 개선하여 공급망을 최적화하든, 웹 서버 트래픽을 예측하여 컴퓨팅 리소스를 보다 효율적으로 할당하든, 환자들의 요구를 수용하기 위해 인력 병원을 통해 생명을 구하든, 예측이 신속하게 투자를 회수하지 못하는 영역은 거의 없습니다.

Amazon에서는 예측 기능을 사용하여 다양한 영역에서 자동화된 비즈니스 의사 결정을 내립니다. 그 중에는 이행 센터의 제품 및 노동 수요 예측 또는 AWS 서비스의 용량 예측 등이 포함됩니다.

 

DeepAR 알고리즘의 새로운 기능

이 글에서는 현재 사용할 수 있는 DeepAR 알고리즘의 새로운 기능에 대해 간략하게 설명합니다.

 

결측치 지원

예측 알고리즘(또는 그 구현)은 종종 데이터가 완벽하다고 가정하지만 현실은 그렇지 않습니다. 실제로 시계열 데이터는 부분적으로만 관측되는 경우가 많습니다. 예를 들어 시계열에 센서 데이터가 포함되어 있을 수 있으며 해당 센서가 일정 시간 동안 순서를 벗어나거나 오프라인 상태일 수 있습니다. 수요를 예측할 때 제품의 재고가 부족하거나 다운 타임이나 잘못된 구성으로 인해 서버에 대한 트래픽 시계열 정보를 며칠 동안 사용하지 못할 수 있습니다. 그러한 경우 예측 알고리즘을 사용하기 전에 결측치를 채워야 하는(귀속되는) 사용자에게 부담이 있는 경우가 많습니다. 그러나 잘못 귀속된 데이터는 예측에 해로운 영향을 미칠 수 있습니다. 예를 들어, 재고 부족 상황에서 관측되지 않은 값을 0으로 대체하면 예측 값이 0으로 편향됩니다. 미래의 제품 수요를 예측하려는 경우, 특히 장기간의 재고 부족 단계를 거친 후에는 이 방법이 불필요합니다.

최신 릴리스의 DeepAR은 모델 내에서 결측치를 직접 처리합니다. 따라서 결측치가 포함된 시계열을 사용하여 예측하기가 더 쉽고(전처리 중 귀속이 필요하지 않음) 더 정확해집니다(낮은 레벨의 외부 귀속 기법에 의존하는 대신 RNN모델 활용하기).

다음은 모델이 결측값이 있는 시계열에 대한 예측을 생성하는 방법에 대한 예입니다.

 

 

사용자 지정 시계열 기능

DeepAR에 대한 주요 고객 요청 중 하나는 맞춤형 시간 가변 기능을 모델에 제공하는 기능입니다. 시계열을 예측할 때 사용자는 대상 시계열에 대한 유용한 정보를 제공할 수 있는 또다른 설명된 시계열을 가지고 있는 경우가 많습니다. 예를 들어 제품에 대한 수요를 예측할 때 특정 기간 동안 프로모션이 효과가 있었는지 또는 제품 가격이 어땠는지 등 시간에 따라 달라지는 정보에 액세스할 수 있습니다. 이제 DeepAR에서 내부적으로 제공하는 기본 계절성 기능 외에도 사용자 정의 계절성 패턴, 인과 효과 등을 모델링 하기 위한 고유한 특징의 시계열을 제공할 수 있습니다. 시간 변화 정보를 사용하면 소리에 기인할 수 있는 효과를 “설명”함으로써 궁극적으로 정확도를 향상시킬 수 있습니다. 또한 “만약 내가 일주일 동안 이 항목을 홍보한다면 어떻게 될까?”와 같은 “만약”에 대한 시나리오를 시뮬레이션 할 수 있습니다.

다음은 증가하는 단기 수요와 관련이 있는 시간 가변 기능(파란 색 선)을 사용한 예입니다. 실제로, 이것은 프로모션 또는 특별한 행사가 될 수 있습니다. 이 예에서는 DeepAR이 다른 기간과 수요가 증가한 기간을 구분할 수 있습니다.

 

 

시계열당 다중 범주

주어진 시계열을 예측할 때 그룹 정보가 큰 도움이 될 수 있습니다. 특히 사용 가능한 과거 데이터가 많지 않은 경우에는 더욱 그렇습니다. DeepAR는 단일 범주형 그룹화 속성을 사용한 그룹화 시간 시리즈를 지원하여 사용자가 시계열의 가능한 그룹을 인코딩할 수 있도록 했습니다. 실제로 시계열은 계절성 패턴과 같은 세부적인 그룹 수준의 효과를 추출하는 데 활용할 수 있는 하나의 그룹뿐 아니라 여러 그룹과 연관되어 있는 경우가 많습니다. 예를 들어 제품에 대한 수요를 예측할 때 제품은 여러 그룹에 속할 수 있습니다.”옷”(“전자 제품”대신)과 같은 상위 그룹, “신발”(“티 셔츠”대신)또는”슬리퍼 샌들”(“운동화”대신)과 같은 낮은 레벨의 제품 군과 연결 될 수 있습니다. 또는 제품 브랜드와 연결된 그룹일 수 있습니다. 또는 제품이 판매되는 상점과 관련된 그룹 등이 될 수 있습니다. 여러 그룹에 대한 지원은 고객이 가장 많이 요청한 기능 중 하나이며, DeepAR의 새 출시가 이를 지원합니다. 이제 그룹화 정보를 그룹별로 하나씩 여러 범주형 기능으로 인코딩하고 시간별 정수의 벡터로서 DeepAR에 제공할 수 있습니다. 이러한 그룹화 정보를 활용함으로써 DeepAR은 계절성 패턴과 같은 그룹별 동작을 학습하여 궁극적으로 예측 정확도를 높일 수 있습니다.

 

일반화 주파수

지금까지 DeepAR은 시계열 데이터(분, 시, 일, 주 또는 월)에서 가장 흔히 볼 수 있는 고정된 시간 주파수 세트를 지원하였습니다. 물론 시계열 데이터는 이러한 기본 주파수 이외의 결의안으로 샘플링할 수 있습니다. 예를 들어 센서는 15분마다 데이터 포인트를 획득하거나 격주로 제품 판매를 기록할 수 있습니다. 이제 새 출시는 기본 주파수의 정수 배수를 지원하므로 추가적인 사전 처리 없이도 이러한 데이터를 처리할 수 있습니다.

 

실제 데이터셋의 노트북

마지막으로, DeepAR의 Amazon SageMaker에서 실제 데이터셋을 처리하는 방법을 보여 주는 노트북을 출시합니다. 이 데이터셋은 370명의 고객이 사용하는 시간당 전기 소비량으로 구성되어 있습니다. 그것은 DeepAR 논문을 포함하여 몇몇 학술 논문에서 사용되었습니다. 이 노트북은 실제 유스 케이스에서 이 출시의 새로운 기능을 사용하는 방법을 보여 줍니다.

저희의 노트북은 또한 Amazon SageMaker에 배치된 모델을 호출하여 즉시 예측을 하는 방법을 보여줍니다.

 

 

더 배우기

자세한 내용은 DeepAR 설명서를 참조하십시오. DeepAR 이면의 수학에 대한 자세한 내용은 Amazon 기계 학습 과학자들이 쓴 학술지를 참조하십시오.

 

원문 URL: https://aws.amazon.com/ko/blogs/machine-learning/amazon-sagemaker-deepar-now-supports-missing-values-categorical-and-time-series-features-and-generalized-frequencies/

** 메가존 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.