Amazon SageMaker 특성 저장소란 무엇인가요?
작동 방식
SageMaker 특성 저장소의 이점
특성 관리
특성 처리 및 수집
다양한 소스의 데이터를 SageMaker Feature Store로 수집할 수 있습니다. 예를 들어 Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake 및 Databricks Delta Lake에서 애플리케이션 및 서비스 로그, 클릭스트림, 센서 및 테이블 형식 데이터를 수집할 수 있습니다. 특성 처리를 사용할 때는 배치 데이터 소스 및 특성 변환 함수(예: 제품 뷰 수 또는 기간 집계)를 지정할 수 있으며 SageMaker 특성 저장소에서 데이터는 수집 시에 ML 특성으로 변환됩니다. Amazon SageMaker Data Wrangler를 사용하면 SageMaker Feature Store에 직접 특성을 게시할 수 있습니다. Apache Spark 커넥터를 사용하면 코드 한 줄로 많은 양의 데이터를 배치 수집할 수 있습니다.
특성 저장, 카탈로그 작성, 검색 및 재사용
SageMaker Feature Store가 특성 그룹을 태깅하고 인덱싱하므로 Amazon SageMaker Studio의 시각적 인터페이스를 통해 쉽게 검색할 수 있습니다. 특성 카탈로그를 찾아보면 확실하게 재사용할 수 있는 기존 특성을 검색하고 파이프라인의 중복을 방지할 수 있습니다. SageMaker Feature Store는 AWS Glue Data Catalog를 기본적으로 사용하지만 원하는 경우 다른 카탈로그를 사용해도 됩니다. 또한 Amazon Athena 또는 다른 쿼리 도구에서 익숙한 SQL을 사용하여 특성을 쿼리할 수 있습니다.
특성 일관성 보장
SageMaker 특성 저장소는 훈련의 경우 오프라인 저장을, 실시간 추론의 경우 온라인 저장을 지원합니다. 훈련과 추론은 서로 매우 다른 사용 사례이며 스토리지 요구 사항이 각각 다릅니다. 훈련 중에 모델은 완료까지 몇 시간이 걸리는 전체 데이터 세트를 사용하는 반면, 추론은 밀리초 단위로 발생해야 하며 일반적으로 데이터의 하위 집합을 사용합니다. 함께 사용할 경우 SageMaker 특성 저장소를 사용하면 오프라인 및 온라인 데이터 세트가 동기화 상태로 유지됩니다. 둘이 나뉠 경우 모델 정확도에 부정적인 영향을 미칠 수 있으므로 이 동기화 상태가 중요합니다.
시간 여행
데이터 사이언티스트는 과거의 특정 시간에 해당 시간 외의 데이터를 포함할 위험 없이(특성 누출 없이) 정확한 세트의 특성 값으로 모델을 훈련해야 할 수 있습니다(예: 진단 전의 환자 의료 데이터). SageMaker Feature Store Offline API는 기간별 관심 시간에 각 특성의 상태를 검색할 수 있도록 특정 시점 쿼리를 지원합니다.
보안 및 거버넌스
계보 추적
특성을 확실하게 재사용하려면 특성이 구축된 방식과 해당 특성을 사용 중인 모델 및 엔드포인트를 알아야 합니다. 데이터 사이언티스트는 SageMaker 특성 저장소를 사용할 때 SageMaker Lineage를 통해 Amazon SageMaker Studio에서 특성을 추적할 수 있습니다. SageMaker Lineage를 사용하면 예약된 파이프라인 실행을 추적하고, 업스트림 계보를 시각화하여 데이터 소스 수준까지 특성을 추적하며, 특성 처리 코드를 볼 수 있습니다. 이 모든 작업을 단일 환경에서 수행할 수 있습니다.
ML 운영
특성 저장소는 MLOps 수명 주기의 핵심 구성 요소입니다. 데이터 세트 및 특성 파이프라인을 관리하여 데이터 과학 태스크의 속도를 높이고 동일한 특성을 여러 번 만드는 중복 작업을 없애 줍니다. SageMaker 특성 저장소를 독립 실행형 서비스로 사용하거나 MLOps 수명 주기 전체에서 통합된 방식으로 다른 SageMaker 서비스와 함께 사용할 수 있습니다.
보안 및 규정 준수
보안 및 규정 준수 요구 사항을 지원하려면 공유 ML 특성의 액세스를 세분화하여 제어해야 할 수 있습니다. 이 요구 사항은 테이블 및 열 수준 액세스 제어를 넘어 개별 행 수준 액세스 제어로 이동합니다. 예를 들어 계정 담당자는 자신이 담당하는 계정에 대한 매출 테이블의 행만 볼 수 있어야 하고 신용카드 번호와 같은 민감한 데이터의 접두사는 마스킹되어야 합니다. SageMaker Feature Store를 AWS Lake Formation과 함께 사용하면 세분화된 액세스 제어를 구현하여 특성 저장소의 데이터를 보호하고 역할에 따라 액세스 권한을 부여할 수 있습니다.