Warum den Amazon SageMaker Feature Store nutzen?
Amazon SageMaker Feature Store ist ein vollständig verwaltetes, speziell entwickeltes Repository zum Speichern, Freigeben und Verwalten von Funktionen für Machine Learning (ML)-Modelle. Die Funktionen sind Eingaben für ML-Modelle, die beim Training und bei der Inferenz verwendet werden. Beispielsweise könnten in einer Anwendung, die eine Musikwiedergabeliste empfiehlt, Funktionen wie Songbewertungen, Hördauer und demografische Daten des Hörers enthalten sein. Die Funktionen werden wiederholt von mehreren Teams verwendet, und die Qualität der Funktionen ist entscheidend für ein hochgenaues Modell. Außerdem ist es schwierig, die beiden Funktionsspeicher synchron zu halten, wenn Funktionen, die für das Offline-Training von Modellen im Batch-Verfahren verwendet wurden, für Echtzeit-Inferenzen zur Verfügung gestellt werden. Der SageMaker Feature Store bietet einen sicheren und einheitlichen Speicher für die Verarbeitung, Standardisierung und Nutzung von Funktionen in großem Umfang über den gesamten ML-Lebenszyklus hinweg.
Funktionsweise
Vorteile von SageMaker Feature Store
Verwaltung von Features
Verarbeitung und Aufnahme von Funktionen
Sie können Daten aus unterschiedlichen Quellen in den SageMaker Feature Store aufnehmen, z. B. aus Anwendungs- und Service-Protokollen, Clickstreams, Sensoren und tabellarischen Daten von Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake und Databricks Delta Lake. Mithilfe der Funktionsverarbeitung können Sie Ihre Batch-Datenquelle und die Funktion zur Funktionstransformation angeben (z. B. Anzahl der Produktansichten oder Zeitfensteraggregate) und SageMaker Feature Store wandelt die Daten zum Zeitpunkt der Aufnahme in ML-Funktionen um. Mit Amazon SageMaker Data Wrangler können Sie Features direkt im SageMaker Feature Store veröffentlichen. Mit dem Apache-Spark-Konnektor können Sie mit einer einzigen Codezeile eine große Datenmenge im Batch-Verfahren aufnehmen.
Speicherung, Katalogisierung, Suche und Wiederverwendung von Funktionen
Amazon SageMaker Feature Store markiert und indiziert Feature-Gruppen, sodass sie über eine visuelle Benutzeroberfläche in Amazon SageMaker Studio einfach auffindbar sind. Das Durchsuchen des Funktionskatalogs ermöglicht es den Teams, vorhandene Funktionen zu entdecken, die sie ohne Bedenken wiederverwenden können, und die Duplizierung von Pipelines zu vermeiden. SageMaker Feature Store verwendet standardmäßig den AWS-Glue-Datenkatalog, erlaubt Ihnen aber, einen anderen Katalog zu verwenden, wenn Sie das wünschen. Sie können auch Features mit vertrauter SQL mit Amazon Athena oder einem anderen Abfragetool Ihrer Wahl abfragen.
Funktionskonsistenz
Der SageMaker Feature Store unterstützt die Offline-Speicherung für das Training und die Online-Speicherung für die Echtzeit-Inferenz. Training und Inferenz sind sehr unterschiedliche Anwendungsfälle und die Speicheranforderungen sind für beide unterschiedlich. Beim Training verwenden die Modelle oft den kompletten Datensatz und können Stunden in Anspruch nehmen, während die Inferenz innerhalb von Millisekunden erfolgen muss und in der Regel eine Teilmenge der Daten verwendet wird. Bei gleichzeitiger Verwendung stellt SageMaker Feature Store sicher, dass Offline- und Online-Datensätze synchron bleiben, was von entscheidender Bedeutung ist, denn wenn sie voneinander abweichen, kann dies die Modellgenauigkeit negativ beeinflussen.
Zeitreise
Datenwissenschaftler müssen möglicherweise Modelle mit dem exakten Satz von Funktionswerten aus einer bestimmten Zeit in der Vergangenheit trainieren, ohne das Risiko einzugehen, Daten von späteren Zeitpunkten einzubeziehen (auch als Funktionsverlust bezeichnet), wie etwa medizinische Patientendaten vor einer Diagnose. Die Offline-API des SageMaker Feature Store unterstützt zeitpunktbezogene Abfragen, um den Status jedes Features zum gewünschten historischen Zeitpunkt abzurufen.
Sicherheit und Governance
Verfolgung der Abstammung
Um eine zuverlässige Wiederverwendung von Funktionen zu gewährleisten, müssen Datenwissenschaftler wissen, wie die Funktionen erstellt wurden und von welchen Modellen und Endpunkten sie genutzt werden. SageMaker Feature Store ermöglicht es Datenwissenschaftlern, ihre Funktionen in Amazon SageMaker Studio mit SageMaker Lineage zu verfolgen. Mit SageMaker Lineage können Sie geplante Pipeline-Ausführungen nachverfolgen, die Upstream-Herkunft visualisieren, um Funktionen bis zu ihren Datenquellen zurückzuverfolgen, und den Code zur Verarbeitung von Funktionen anzeigen – alles in einer einzigen Umgebung.
ML-Vorgänge
Feature-Stores sind eine Schlüsselkomponente im Lebenszyklus von MLOps. Sie verwalten Datensätze und Funktionspipelines, beschleunigen datenwissenschaftliche Aufgaben und verhindern, dass dieselben Funktionen mehrfach erstellt werden müssen. SageMaker Feature Store kann als eigenständiger Service oder zusammen mit anderen SageMaker-Services auf integrierte Weise über den gesamten MLOps-Lebenszyklus hinweg genutzt werden.
Sicherheit und Compliance
Um Sicherheits- und Compliance-Anforderungen zu erfüllen, benötigen Sie unter Umständen eine genaue Kontrolle darüber, wie auf gemeinsam genutzte ML-Funktionen zugegriffen wird. Diese Anforderungen gehen oft über die Zugriffskontrolle auf Tabellen- und Spaltenebene hinaus und erstrecken sich auch auf die Zugriffskontrolle auf Zeilenebene. Beispielsweise können Sie Kundenbetreuern die Möglichkeit geben, Zeilen aus einer Verkaufstabelle nur für ihre Konten zu sehen und das Präfix von sensiblen Daten wie Kreditkartennummern zu verbergen. SageMaker Feature Store kann gemeinsam mit AWS Lake Formation verwendet werden, um fein abgestufte Zugriffskontrollen zu implementieren, um Feature-Store-Daten zu schützen und rollenbasierten Zugriff zu gewähren.