BLOG

Amazon SageMaker의 Amazon Textract 및 변환기 기반 모델을 사용하여 다양한 문서에 구조 가져오기
작성일: 2021-10-27

신청서부터 신분 증명서, 최근에는 공과금 청구서와 은행 명세서에 이르기까지 수많은 비즈니스 프로세스, 그중에서도 특히 금융 서비스나 법률 산업에서는 여전히 문서를 교환하고 분석하는 데 의존하고 있는데요, 이번 포스팅에서는 기계 학습(ML)을 위한 종단 간 플랫폼인 Amazon SageMaker를 사용하여 고급 ML 모델로 까다로운 문서 분석 작업을 자동화하는 방법을 알아보도록 하겠습니다. 특히 오늘 살펴볼 내용은 다음과 같으며 GitHub 에서 연습과 함께 제공되는 샘플 코드를 찾을 수 있습니다.

 

  1. 사전 훈련 데이터 수집
  2. 모델 학습 및 배포
  3. 종단 간 광학 문자 인식(OCR) 파이프라인 구축

 

 

구조화된 문서 추출을 위한 Amazon Textract

 

문서 기반 프로세스를 성공적으로 자동화하기 위해 기업은 수신된 파일에서 원시 텍스트뿐만 아니라 해당 프로세스와 관련된 특정 필드, 속성 및 구조를 추출하는 도구가 필요합니다. 예를 들면 계약서의 특정 조항의 존재 여부, 신원 문서의 개인 이름 및 주소와 같은 항목 등입니다. 이 경우, Amazon Textract를 사용하면 필기 또는 인쇄된 텍스트(OCR)의 단순한 추출 이상의 작업을 수행할 수 있습니다. 서비스의 사전 훈련된 구조 추출 기능은 테이블 레이아웃, 키-값 쌍(예: 양식) 및 송장 데이터를 포함하여 AWS에서 구축한 상위 수준 구조의 복구를 제공하며 별도의 사용자 지정 훈련이나 조정이 필요하지 않습니다.

 

 

사전 훈련된 이러한 범용 추출 도구는 사용 사례에 따른 가정 없이 문서의 텍스트를 그대로 보존하며, 다양한 분석 작업을 단순한 규칙 기반 논리로 크게 단순화합니다. 예를 들어 다음과 같은 작업들을 수행할 수 있습니다.

 

  • 회사 대차대조표의 테이블 행을 순환하면서 첫 번째 셀을 데이터베이스의 표준 필드에 매핑하고(예 TOTAL CURRENT LIABILITIES:Total Current Liabilities) 다음 셀에서 통화 금액을 추출합니다.
  • 완성되고 스캔한 신청서에서 키-값 쌍을 반복하고 채워지지 않은 것으로 보이는 필드에 플래그를 지정합니다(예: 키 Email address에 빈 값이 있거나 전혀 감지되지 않음).

 

이러한 기본 제공 기능은 고객이 다양한 사용 사례에 대한 솔루션을 구축할 수 있도록 지원하면서 계속 발전하고 개선됩니다. 그러나 전 세계의 비즈니스에서 다뤄지는 문서는 매우 다양합니다. 그렇다면 ​​간단한 규칙 기반 논리에 적합하지 않은 일부 구조를 추출해야 하는 경우에는 어떤 추가 도구를 탐색할 수 있을까요?

 

BERT, 변환기 및 LayoutLM

 

 

최근 몇 년 동안 주의(attention) 기반 딥 러닝 변환기 모델에 대한 연구는 분류 및 엔터티 감지에서 번역, 질문 답변 등에 이르기까지 광범위한 텍스트 처리 작업의 기술을 최첨단으로 크게 발전시켰습니다. 업계에 매우 큰 영향력을 미친 Attention Is All You Need 논문(2017)이 발표된 이후로, 이 분야에서는 현재 잘 알려진 BERT 모델(2018)이 부상했을 뿐만 아니라 GPT, XLNet, RoBERTa 등 이와 관련 개념들 역시 폭발적으로 확장하고 있습니다. 트랜스포머 기반 모델의 정확성과 성능은 관심을 끄는 분명한 이유 중 하나이지만, 이미 Amazon Comprehend(텍스트를 분류 or 엔티티 멘션)나  Amazon Kendra (자연어 검색 및 질문 답변용)와 같은 기성 AI 서비스를 사용하여 Amazon Textract에서 추출한 텍스트를 분석하는 것이 가능합니다.  AWS 문서의 이해 솔루션은 이러한 통합의 범위를 잘 보여줍니다.

 

OCR에서 이러한 기술을 고려해야 하는 또 다른 흥미로운 이유는 변환기 기반 모델이 페이지에서 단어의 절대 위치를 사용하도록 조정할 수 있다는 것입니다. RNN, LSTM 또는 n-gram 기반 방법과 같은 전통적인 텍스트 모델이 입력에서 단어의 순서를 설명하지만 많은 경우 텍스트를 단어의 선형 시퀀스로 취급하는 접근 방식이 매우 엄격합니다. 실제로 문서는 단순한 단어 문자열이 아니라 머리글, 단락, 열 및 표와 같은 기능이 포함된 풍부한 캔버스입니다. BERT와 같은 모델의 입력 위치 인코딩은 이 위치 정보를 통합할 수 있기 때문에 텍스트의 내용뿐만 아니라 크기 및 배치도 학습하는 모델을 훈련하여 성능을 높일 수 있습니다. 아래 다이어그램을 통해 이를 확인할 수 있습니다.

 

 

예를 들어, 형식과 간격이 다르기 때문에 편지에서 수신자와 발신자 주소를 추출하는 순전한 위치 기반의 템플릿을 구축하기 어려울 수 있지만, 텍스트의 내용과 위치를 모두 사용하는 ML 모델은 주소 내용만 더 안정적으로 추출할 수 있습니다. Xu는 LayoutLM: 문서 ​​이미지 이해를 위한 텍스트 및 레이아웃 사전 교육 (2019)에서 이러한 접근 방식을 사용하여 LayoutLM 모델을 제안했는데, 이는 추가 위치 임베딩으로 BERT를 사용자 지정하여 다양한 작업에서 최첨단 결과를 달성했습니다. 새로운 연구는 확실히 계속 발전할 것이지만 Amazon Textract를 기반으로 교육 가능한 방식으로 복잡한 도메인별 문서 이해 작업을 자동화하기 위해 이 분야에서 LayoutLM 및 기타 모델의 사용 가능한 오픈 소스 구현의 이점을 이미 누릴 수 있습니다.

 

 

아이디어에서 적용까지

 

공개적으로 사용 가능한 데이터를 사용하여 기술을 시연하기 위해서는 특히 까다로운 자료인 미국 소비자 금융 보호국(Consumer Financial Protection Bureau)에서 발행한 신용 카드 계약 데이터베이스 에서 정보를 추출하는 것을 고려해야 합니다. 이 데이터 세트는 미국에 있는 수백 개의 공급자가 제공하는 신용 ​​카드 계약의 PDF로 구성됩니다. 여기에는 신용이 제공되는 전체 법적 조건과 잠재 고객이 관심을 가질 수 있는 종류의 요약 정보(예: APR 이자율, 수수료 및 요금)가 포함됩니다.

 

 

문서는 대부분 스캔이 아닌 디지털 방식으로 제공되므로 OCR 자체는 그다지 어렵지 않지만, 형식과 구조 및 문구가 다양합니다. 이러한 의미에서 이들은 많은 실제 문서 분석의 사용 사례를 대표합니다. 예를 들어 카드의 연회비를 추출하는 프로세스를 가정해보겠습니다.

 

  • 일부 제공자는 이 정보를 표준화된 공개 요약 테이블에 포함할 수 있지만 다른 제공자는 계약 텍스트에 이를 나열할 수 있습니다.
  • 많은 제공업체는 표준 연회비가 발효되기 전에 소개 제안(기간 및 기간이 다를 수 있음)을 제공합니다.
  • 일부 제공업체는 요금이 월 할부로 적용된다고 명시적으로 자세히 설명하는 반면, 다른 제공업체는 단순히 연간 금액을 나열할 수 있습니다.
  • 일부 공급자는 단일 계약 문서에 여러 카드를 그룹화하는 반면 다른 공급자는 제공된 카드당 하나의 계약을 분할합니다.

 

이제 다음을 포함하여 이러한 문서(다음 스크린샷 참조)에서 19개의 필드를 추출하도록 단일 예제 모델을 훈련해보겠습니다.

 

  • APR 이자율 – 구매, 잔액 이체, 도입 및 위약금과 같은 범주로 분할
  • 수수료 – 연회비, 해외 거래 수수료, 연체 과태료 등
  • 이자 조항 – 최소 지불액 계산, 특정 주의 거주자에게 적용되는 현지 조건 등
  • 기본 정보 – 카드 제공자 이름 및 주소, 카드 이름, 계약 발효일 등

 

 

예제 솔루션에 대한 코드는 GitHub 에서 제공되며, 배포와 실습이 가능합니다. 시작하려면 먼저 지침에 따라 솔루션 스택을 배포하고 SageMaker에서 walkthrough notebooks를 다운로드하십시오.

 

 

사전 훈련 데이터 수집

 

LayoutLM과 같은 변환기 모델은 일반적으로 언어의 일반적인 패턴(및 위치 인식 모델의 경우 페이지 구조)을 학습하기 위해 많은 양의 레이블이 지정되지 않은 데이터에 대해 사전 학습됩니다. 이러한 방식으로, 일반적으로 미세 조정이라고 하는 프로세스인 비교적 적은 레이블이 지정된 데이터로 특정 다운스트림 작업을 학습할 수 있습니다. 예를 들어, 법적 사용 사례에서 많은 수의 역사적 법적 계약과 문서가 있을 수 있지만 일부에만 관심 있는 특정 조항(모델이 수행하기를 원하는 작업)의 위치가 주석으로 표시됩니다.

 

 

그런 다음 우리의 첫 번째 작업은 Amazon Textract로 디지털화된 교육 문서의 대표적인 컬렉션을 컴파일하고 사람 레이블러가 데이터 세트의 일정 비율에 모델이 생성할 실제 레이블로 주석을 달도록 하는 것입니다. 이 예에서는 게시된 microsoft/layoutlm-base-uncased 사전 훈련된 모델(IIT CDIP 1.0 데이터 세트에서)을 사용하고 미세 조정을 위해 CFPB의 비교적 적은 수의 신용 카드 계약에 주석을 달았습니다. 이것은 실제 사용 사례에서도 적절한 빠른 시작일 수 있지만 사전 훈련된 대규모 언어 모델에는 몇 가지 중요한 의미가 포함될 수 있습니다.

 

  • 모델 정확도 – 문서가 Wikipedia vs. 뉴스 기사 vs. 법적 계약과 같이 사전 교육 세트와 상당히 다른 경우 감소할 수 있습니다.
  • 개인 정보 보호 – 경우에 따라 입력 데이터는 학습된 모델에서 리버스 엔지니어링될 수 있습니다(예 : 대언어 모델에서 학습 데이터 추출 (2020)).
  • 편향 – 대규모 언어 모델은 데이터 세트에서 문법과 의미 체계뿐만 아니라 다른 패턴도 배웁니다. 실무자는 소스 데이터 세트의 잠재적인 편향과 모델이 성별, 인종 또는 종교와 같은 고정 관념을 흡수할 경우 발생할 수 있는 실제 피해를 고려해야 합니다. 예를 들어 StereoSet: 사전 훈련된 언어 모델의 고정관념적 편향 측정 (2020)을 참조하세요.

 

솔루션 샘플의 노트북 1 에서는 데이터의 초기 수집 및 주석을 안내합니다. 먼저 Amazon Textract를 통해 원본 문서의 일부를 실행하여 텍스트 및 위치 데이터를 추출합니다. 전체 코퍼스를 추출하고 이를 레이블이 지정되지 않은 사전 학습 데이터로 사용하도록 모델링 코드를 확장하는 것도 고려할 수 있습니다. 그런 다음 주석을 달고자 하는 문서에 대해 오픈 소스 도구를 사용하여 개별 페이지를 이미지로 추출합니다. 이 이미지 데이터를 통해 우리는 Amazon SageMaker Ground Truth 에서 표준  bounding box labeling tool을 활용하여 박스를 드로잉해서 관심 분야를 효율적으로 태그할 수 있습니다. 아래의 스크린샷을 참조해주세요.

 

 

예제 사용 사례의 경우 데이터 세트의 페이지에 대해 100개의 준비된 주석을 제공하므로 추가 데이터에 레이블을 지정하는 데 너무 많은 시간을 소비하지 않고도 합리적인 모델을 시작할 수 있습니다. Amazon Textract의 감독되지 않은 텍스트 및 위치 데이터와 페이지 하위 집합에 대한 Ground Truth의 경계 상자 레이블을 사용하여 모델을 사전 교육하고 미세 조정하는 데 필요한 입력이 있습니다.

 

 

모델 학습 및 배포

 

추출된 단어에서 출력 필드까지의 완전한 추적성을 유지하기 위해 우리의 예제는 다른 필드 유형(또는 none) 사이에서 각 단어를 분류하는 것으로 작업을 구성합니다. 우리는 인기 있는 Hugging Face Transformers 라이브러리에서 제공되는 LayoutLMForTokenClassification 구현을 사용하고 layoutlm-base-uncased 사전 훈련된 모델을 미세 조정합니다. Hugging Face 변환기(PyTorch, TensorFlow, Scikit Learn 및 기타에서도 사용 가능)용 SageMaker 프레임워크 컨테이너를 사용하면 사전 구현된 설정 및 제공 스택을 활용할 수 있습니다. 우리가 작성해야 하는 것은 교육용 스크립트(Amazon Textract 및 Ground Truth의 입력 JSON 구문 분석)와 추론을 위한 일부 재정의 기능(모델을 해당 JSON 형식에 직접 적용하기 위해)뿐입니다.

 

솔루션 샘플의 노트북 2 는 전용 인프라에서 실행되는 SageMaker API를 통해 노트북에서 다양한 교육 작업 실험을 실행하는 방법을 보여줍니다. 이 기능은 전용 인프라에서 실행되므로 각 작업에 필요한 GPU 리소스 시간에 대한 초당 종량제 과금을 이용할 수 있습니다.

훈련 작업 메트릭 , 자동 초매개변수 조정 및 실험 추적 과 같은 SageMaker 기능을 활용하여 다양한 알고리즘 구성을 탐색하고 모델 정확도를 최적화할 수 있습니다(다음 스크린샷 참조).

 

 

훈련이 성공적으로 완료되면 Amazon Textract JSON 결과를 입력으로 사용하고 입력 문서에서 다양한 정의된 엔터티 유형에 속하는 단어를 선택할 수 있는 모델이 있습니다. 모델이 응답과 동일한 JSON 형식을 반환하지만 추가 메타데이터가 풍부하기 때문에 통합을 단순화하는 데 도움이 될 수 있습니다. Amazon Textract에 대해 설정된 기존 파이프라인은 평소와 같이 JSON을 읽을 수 있지만, 소비자가 존재하고 이해하는 경우 추가 필드를 활용합니다. SageMaker Python SDK 에서 단일 함수 호출로 훈련된 모델을 실시간 추론 엔드포인트에 배포한 다음 Amazon SageMaker Studio 노트북에서 테스트할 수 있습니다 (다음 스크린샷 참조).

 

 

 

종단 간 OCR 파이프라인 만들기

 

이 예에서는 대부분의 경우와 마찬가지로 일반적으로 Amazon Textract를 통해 소스 문서를 실행하고 ML 모델을 호출하는 것 외에 전체 프로세스 흐름에 추가 단계가 있습니다.

 

  • 정보 추출은 거의 항상 광범위한 비즈니스 프로세스 내에서 한 단계이며, 여기에는 자동화 및 수동 단계의 다양한 종류가 포함될 수 있습니다.
  • 우리는 종종 ML 모델의 상단에 몇 가지 비즈니스 규칙을 적용하여 모델 출력과 비즈니스 프로세스에 필요한 것 사이에 제약 조건이나 남아 있는 차이를 추가하고자 합니다. 예를 들어 특정 필드가 숫자이거나 전자 메일 주소와 같은 특정 패턴을 따라야 합니다.
  • 우리는 종종 자동화된 추출의 결과를 검증하고 뭔가 잘못된 것 같으면 인적 검토를 시작해야 합니다. 예를 들어 필수 필드가 누락되었거나 모델의 신뢰도가 낮은 경우입니다.
  • 일부 사용 사례에서는 OCR이 시도되기 전에 이미지 사전 처리가 필요할 수 있습니다. 예를 들어, 신원 문서가 합법적인지 확인하거나 제출된 이미지 또는 문서 유형을 분류합니다.
  • 일부 사용 사례에서는 전체 비즈니스 요구 사항을 충족하기 위해 여러 ML 모델을 적용할 수도 있습니다.

 

지점 간 통합을 통해 이러한 종단 간 파이프라인을 구축할 수 있지만 이와 같은 아키텍처는 변경하기 쉬울 수 있습니다. 대신 오케스트레이션 서비스를 사용하여 전체 흐름을 관리하면 개별 단계의 아키텍처를 분리하는 데 도움이 될 수 있습니다. 이렇게 하면 구성 요소를 더 쉽게 교체하고 단계의 경로를 추적하기 위한 중앙 집중식 보기를 갖게 됩니다. AWS Step Functions 는 이와 같은 복잡한 프로세스를 서버리스 방식으로 오케스트레이션하는 데 사용할 수 있는 로우 코드 시각적 워크플로 서비스입니다. 다음 다이어그램은 워크플로를 보여줍니다.

 

 

Step Functions를 사용하면 전체 워크플로우를 그래프로 작성하고 모니터링할 수 있습니다. 이는 개별 단계를 실행하는 데 걸리는 시간과 무관한 서버리스 모델이며, 완료하는 데는 최대 1년이 걸릴 수 있습니다. 이 예에서는 다음 스크린샷과 같이 초기 OCR, ML 모델 강화, 규칙 기반 사후 처리 및 잠재적인 사람 검토의 단계를 함께 연결합니다. 코딩 없이 Step Functions에서 직접 검토자에게 에스컬레이션하는 것과 모델 결과를 수락하는 기준을 정의할 수 있습니다. 이 경우 간단한 전체 신뢰 임계값 확인을 사용합니다.

 

 

 

Amazon Simple Storage Service(Amazon S3)에 새 문서를 업로드할 때 또는 Amazon EventBridge 규칙, AWS IoT Core Rules Engine, Amazon API Gateway, Step Function API 자체 등 광범위한 다른 소스를 통해 Step Functions 워크플로우를 자동으로 실행할 수 있습니다.

마찬가지로, Step Functions 파이프라인만으로도 예제를 설명하기에 충분하지만 다른 서비스를 워크플로에 통합하거나 워크플로 출력을 저장하기 위한 광범위한 옵션이 있습니다.

 

 

 

지속적인 학습 및 개선

 

솔루션의 인적 검토는 Ground Truth(초기 교육 데이터를 수집하기 위해 이전에 사용)와 많은 공통점을 공유하지만, 일괄 주석 작업이 아닌 온라인 단일 항목 검토용으로 설계된 서비스인 Amazon Augmented AI (Amazon A2I)를 기반으로 합니다.

Amazon A2I는 Ground Truth와 다음과 같은 유사점이 있습니다.

 

  • 작업자로 구성된 팀을 정의하여 작업을 수행하거나 Amazon Mechanical Turk를 통해 공개 군중을 사용하거나 AWS Marketplace를 통해 숙련된 공급업체를 소싱할 수 있습니다.
  • 작업에 대한 사용자 인터페이스는 기본 제공 작업 세트와 함께 Liquid HTML 템플릿 언어로 정의되지만 요구 사항에 맞는 사용자 정의 UI를 구축하는 데 도움이 되는 다양한 공개 샘플도 포함합니다.
  • 주석 출력은 JSON 형식으로 Amazon S3에 저장되므로 결과를 광범위한 다운스트림 도구 및 프로세스와 쉽게 통합할 수 있습니다.
  • 서비스 가격은 작업 기간에 관계없이 주석을 달거나 검토한 항목 수에 따라 결정되며 작업자가 로그인할 수 있는 서버를 유지할 필요가 없습니다.

 

실제로 문서 디지털화 솔루션의 지속적인 재교육에 대한 중요한 고려 사항은 비즈니스 프로세스 검토 활동과 ML 모델 교육 데이터 수집 간의 잠재적 긴장입니다. 실제 ML 모델이 출력하는 것과 비즈니스 프로세스에서 사용하는 것 사이에 차이가 있는 경우 검토를 사용하여 교육 데이터를 수집한다는 것은 실제로 프로세스를 실행하는 데 필요한 최소값 이상을 확인해야 하기 때문에 검토자의 작업 부하를 암시적으로 증가시키는 것을 의미합니다. 우리의 기본 예에서 모델은 문서에서 대상 엔터티 유형에 대한 (여러 개의 잠재적) 멘션을 감지한 다음 (후처리 단계에서) 비즈니스 규칙이 이를 통합합니다. 비즈니스 프로세스가 효율적으로 작동하려면 검토자의 최소한의 노력이 통합된 값(예: 신용 카드 공급자 이름)을 확인하고 편집하는 것입니다. 그러나 모델을 재교육하기 위해 데이터를 사용하려면 검토자가 문서에서 엔터티의 모든 언급에 주석을 추가하는 추가 노력을 기울여야 합니다.

 

자동화하고 있는 모든 프로세스를 원활하게 실행하기 위해 온라인 검토의 효율성을 최적화해야 하는 경우가 많습니다. 또한 모델 개선을 위해 이러한 모든 검토를 교육 세트에 통합할 필요가 없을 수도 있습니다(사실, 가정으로 간주할 경우 일부 경우 모델을 왜곡할 수 있음).

따라서 예제 솔루션( 노트북 3 참조 )에서는 모델 교육 데이터를 수집하는 데 사용되는 경계 상자 도구와 다른 사용자 지정 검토 UI를 보여줍니다(다음 스크린샷 참조).

 

 

이 패턴을 사용하면 (온라인) 검토 결과를 저장하고 (오프라인) 교육 데이터 수집 팀이 흥미롭고 유용한 예제로 안내하는 데 사용할 수 있습니다. 물론 이것은 워크플로의 예일뿐이며 다음과 같은 경우 이 분리를 제거하는 것이 실용적일 수 있습니다.

 

  • 각 필드가 일반적으로 한 번만 나타나는 문서의 경우
  • 일치 통합이 모델 자체의 일부인 수정된 모델 사용
  • 교육 데이터를 대규모로 수집해야 하고 온라인 검토에 대한 추가 노력의 영향이 허용되는 경우

 

 

결론 및 다음 단계

 

오늘 포스팅에서는 확장 및 사용자 지정에 대한 더 넓은 가능성과 함께 Amazon Textract 결과에 대한 ML 기반 후처리의 구체적인 작동 예를 보여주었습니다. 최신 변압기 기반 NLP 모델 아키텍처를 사용하면 사전 훈련된 모델을 사용하여 레이블이 지정된 데이터가 비교적 적은 솔루션을 구축하거나 디지털화되었지만 레이블이 지정되지 않은 문서에서 대규모 사내 사전 훈련 데이터 세트를 생성할 수도 있습니다. 특히 LayoutLM과 같은 위치 인식 언어 모델은 추출된 텍스트뿐만 아니라 Amazon Textract가 출력하는 단어별 경계 상자도 수집할 수 있습니다. 이렇게 하면 전사된 텍스트와 페이지에서의 위치를 ​​모두 고려하는 고성능 모델이 생성됩니다.

 

SageMaker는 데이터 수집, 레이블 지정 및 사전 처리에서 종단 간 ML 프로젝트 수명 주기를 가속화하는 도구를 제공합니다. 훈련 및 조정 모델을 통해; 프로덕션의 모델에서 예측을 배포, 모니터링 및 검토합니다. Step Functions는 이러한 교육 가능한 모델을 비즈니스 규칙 및 기타 구성 요소와 결합하는 유연한 종단 간 워크플로를 오케스트레이션하기 위한 강력한 도구를 제공합니다. 프로세스 흐름을 통합하고 사용자 지정하는 것 외에도 사용 가능한 오픈 소스 도구를 기반으로 구축하여 ML 모델 자체를 다양한 방식으로 확장할 수 있습니다. 예를 들어 다음을 수행할 수 있습니다.

 

  • 개별 토큰이 아닌 전체 페이지 분류(문서 유형 분류)(엔티티 추출)
  • 보다 생성적인 텍스트 요약 또는 번역 작업을 위한 기존 교육 패턴을 LayoutLM에 적용하여 텍스트에 주석을 추가하는 대신 출력에서 ​​OCR 오류를 수정할 수 있는 모델을 만듭니다.
  • 예를 들어 OCR 엔진이 감지된 각 단어에 부여한 신뢰도 점수를 나타내기 위해 입력 임베딩을 추가로 확장합니다.

 

SageMaker 모델을 Amazon Textract와 결합하면 복잡한 문서 분석 작업에 대해서도 고도로 정밀하고 사용자 지정과 재교육이 가능한 자동화를 구축하고 운영할 수 있습니다. 본 포스팅에서 설명한 예제 코드는 GitHub에서 사용할 수 있습니다. 영감을 받아 구축한 여러분의 솔루션을 공유해 주세요!

 

Amazon Textract를 통합하는 다른 예제는 추가 코드 예제를 참조하십시오. 사용자 지정 ML 프로젝트에 SageMaker를 시작하는 방법에 대해 자세히 알아보려면 Amazon SageMaker 시작하기를 참조하십시오. SageMaker Python SDK 및 Hugging Face로 SageMaker에서 모델 실행에 대해 자세히 알아볼 수도 있습니다.

원문URL: https://aws.amazon.com/ko/blogs/machine-learning/bring-structure-to-diverse-documents-with-amazon-textract-and-transformer-based-models-on-amazon-sagemaker/

메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글이나 관련 기사 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.