Amazon SageMaker 특성 저장소

기계 학습 특성을 위한 완전 관리형 서비스

Amazon SageMaker 특성 저장소란 무엇인가요?

Amazon SageMaker 특성 저장소는 기계 학습(ML) 모델 특성의 저장, 공유 및 관리를 위한 목적별 완전관리형 리포지토리입니다. 특성은 ML 모델의 훈련 및 추론 중에 사용되는 입력입니다. 예를 들어 음악 재생 목록을 추천하는 애플리케이션에서 특성에는 노래 등급, 청취 기간 및 청취자 인구 통계학이 포함될 수 있습니다. 특성은 여러 팀에 의해 반복적으로 사용되며 특성 품질은 고도로 정확한 모델을 보장하는 데 중요합니다. 또한 오프라인에서 배치로 모델을 훈련하는 데 사용된 특성을 실시간 추론에 제공하는 경우에는 두 특성을 동기화된 상태로 저장하기가 어렵습니다. SageMaker 특성 저장소는 ML 수명 주기 전체에서 대규모로 특성을 처리하고 표준화하며 사용할 수 있도록 안전하게 통합된 저장소를 제공합니다.

작동 방식

작동 방식: Amazon SageMaker 특성 저장소

SageMaker 특성 저장소의 이점

스트리밍 및 배치를 포함한 모든 데이터 소스(예: AWS 또는 서드 파티 데이터 소스의 애플리케이션 로그, 서비스 로그, 클릭스트림, 센서 및 표 형식 데이터)에서 특성을 수집합니다.
훈련 및 추론을 위한 ML 모델 특성을 저장, 공유 및 관리하여 ML 애플리케이션 전체에서 특성 재사용을 촉진합니다.
데이터를 ML 특성으로 변환하고 특성 파이프라인을 구축하여 MLOps 사례를 지원하고 모델 배포를 가속화합니다.

특성 관리

특성 처리 및 수집

다양한 소스의 데이터를 SageMaker Feature Store로 수집할 수 있습니다. 예를 들어 Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake 및 Databricks Delta Lake에서 애플리케이션 및 서비스 로그, 클릭스트림, 센서 및 테이블 형식 데이터를 수집할 수 있습니다. 특성 처리를 사용할 때는 배치 데이터 소스 및 특성 변환 함수(예: 제품 뷰 수 또는 기간 집계)를 지정할 수 있으며 SageMaker 특성 저장소에서 데이터는 수집 시에 ML 특성으로 변환됩니다. Amazon SageMaker Data Wrangler를 사용하면 SageMaker Feature Store에 직접 특성을 게시할 수 있습니다. Apache Spark 커넥터를 사용하면 코드 한 줄로 많은 양의 데이터를 배치 수집할 수 있습니다.

스크린샷

특성 저장, 카탈로그 작성, 검색 및 재사용

SageMaker Feature Store가 특성 그룹을 태깅하고 인덱싱하므로 Amazon SageMaker Studio의 시각적 인터페이스를 통해 쉽게 검색할 수 있습니다. 특성 카탈로그를 찾아보면 확실하게 재사용할 수 있는 기존 특성을 검색하고 파이프라인의 중복을 방지할 수 있습니다. SageMaker Feature Store는 AWS Glue Data Catalog를 기본적으로 사용하지만 원하는 경우 다른 카탈로그를 사용해도 됩니다. 또한 Amazon Athena 또는 다른 쿼리 도구에서 익숙한 SQL을 사용하여 특성을 쿼리할 수 있습니다.

이 이미지는 특성 그룹 카탈로그를 보여줍니다.

특성 일관성 보장

SageMaker 특성 저장소는 훈련의 경우 오프라인 저장을, 실시간 추론의 경우 온라인 저장을 지원합니다. 훈련과 추론은 서로 매우 다른 사용 사례이며 스토리지 요구 사항이 각각 다릅니다. 훈련 중에 모델은 완료까지 몇 시간이 걸리는 전체 데이터 세트를 사용하는 반면, 추론은 밀리초 단위로 발생해야 하며 일반적으로 데이터의 하위 집합을 사용합니다. 함께 사용할 경우 SageMaker 특성 저장소를 사용하면 오프라인 및 온라인 데이터 세트가 동기화 상태로 유지됩니다. 둘이 나뉠 경우 모델 정확도에 부정적인 영향을 미칠 수 있으므로 이 동기화 상태가 중요합니다.

이 이미지는 특성 그룹 생성을 묘사합니다.

시간 여행

데이터 사이언티스트는 과거의 특정 시간에 해당 시간 외의 데이터를 포함할 위험 없이(특성 누출 없이) 정확한 세트의 특성 값으로 모델을 훈련해야 할 수 있습니다(예: 진단 전의 환자 의료 데이터). SageMaker Feature Store Offline API는 기간별 관심 시간에 각 특성의 상태를 검색할 수 있도록 특정 시점 쿼리를 지원합니다.  

이 이미지는 기간별 관심 시간에 각 특성의 상태를 검색하기 위한 Feature Store Offline API 쿼리의 흐름을 보여줍니다.

보안 및 거버넌스

계보 추적

특성을 확실하게 재사용하려면 특성이 구축된 방식과 해당 특성을 사용 중인 모델 및 엔드포인트를 알아야 합니다. 데이터 사이언티스트는 SageMaker 특성 저장소를 사용할 때 SageMaker Lineage를 통해 Amazon SageMaker Studio에서 특성을 추적할 수 있습니다. SageMaker Lineage를 사용하면 예약된 파이프라인 실행을 추적하고, 업스트림 계보를 시각화하여 데이터 소스 수준까지 특성을 추적하며, 특성 처리 코드를 볼 수 있습니다. 이 모든 작업을 단일 환경에서 수행할 수 있습니다.

이 이미지는 SageMaker Studio의 특성 그룹 계보를 보여줍니다.

ML 운영

특성 저장소는 MLOps 수명 주기의 핵심 구성 요소입니다. 데이터 세트 및 특성 파이프라인을 관리하여 데이터 과학 태스크의 속도를 높이고 동일한 특성을 여러 번 만드는 중복 작업을 없애 줍니다. SageMaker 특성 저장소를 독립 실행형 서비스로 사용하거나 MLOps 수명 주기 전체에서 통합된 방식으로 다른 SageMaker 서비스와 함께 사용할 수 있습니다.

보안 및 규정 준수

보안 및 규정 준수 요구 사항을 지원하려면 공유 ML 특성의 액세스를 세분화하여 제어해야 할 수 있습니다. 이 요구 사항은 테이블 및 열 수준 액세스 제어를 넘어 개별 행 수준 액세스 제어로 이동합니다. 예를 들어 계정 담당자는 자신이 담당하는 계정에 대한 매출 테이블의 행만 볼 수 있어야 하고 신용카드 번호와 같은 민감한 데이터의 접두사는 마스킹되어야 합니다. SageMaker Feature Store를 AWS Lake Formation과 함께 사용하면 세분화된 액세스 제어를 구현하여 특성 저장소의 데이터를 보호하고 역할에 따라 액세스 권한을 부여할 수 있습니다.

이 이미지는 SageMaker Feature Store와 AWS Lake Formation을 사용하여 세분화된 액세스 제어를 구현하는 방법을 보여줍니다.

새로운 소식

  • 날짜(최신순)
결과를 찾을 수 없음
1