Amazon SageMaker Feature Store

Ein vollständig verwalteter Service für Machine-Learning-Funktionen

Warum den Amazon SageMaker Feature Store nutzen?

Amazon SageMaker Feature Store ist ein vollständig verwaltetes, speziell entwickeltes Repository zum Speichern, Freigeben und Verwalten von Funktionen für Machine Learning (ML)-Modelle. Die Funktionen sind Eingaben für ML-Modelle, die beim Training und bei der Inferenz verwendet werden. Beispielsweise könnten in einer Anwendung, die eine Musikwiedergabeliste empfiehlt, Funktionen wie Songbewertungen, Hördauer und demografische Daten des Hörers enthalten sein. Die Funktionen werden wiederholt von mehreren Teams verwendet, und die Qualität der Funktionen ist entscheidend für ein hochgenaues Modell. Außerdem ist es schwierig, die beiden Funktionsspeicher synchron zu halten, wenn Funktionen, die für das Offline-Training von Modellen im Batch-Verfahren verwendet wurden, für Echtzeit-Inferenzen zur Verfügung gestellt werden. Der SageMaker Feature Store bietet einen sicheren und einheitlichen Speicher für die Verarbeitung, Standardisierung und Nutzung von Funktionen in großem Umfang über den gesamten ML-Lebenszyklus hinweg.

Funktionsweise

Wie es funktioniert: Amazon SageMaker Feature Store

Vorteile von SageMaker Feature Store

Speichern Sie, geben Sie frei und verwalten Sie ML-Modellfunktionen für Training und Inferenz, um die Wiederverwendung von Funktionen in ML-Anwendungen zu fördern.
Nehmen Sie Funktionen aus beliebigen Datenquellen auf, einschließlich Streaming und Batch, wie Anwendungsprotokolle, Serviceprotokolle, Clickstreams, Sensoren und tabellarische Daten aus AWS- oder Drittanbieter-Datenquellen
Transformieren Sie Daten in ML-Funktionen und erstellen Sie Funktions-Pipelines, die MLOps-Praktiken unterstützen und die Zeit bis zur Modellbereitstellung verkürzen.

Verwaltung von Features

Verarbeitung und Aufnahme von Funktionen

Sie können Daten aus unterschiedlichen Quellen in den SageMaker Feature Store aufnehmen, z. B. aus Anwendungs- und Service-Protokollen, Clickstreams, Sensoren und tabellarischen Daten von Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake und Databricks Delta Lake. Mithilfe der Funktionsverarbeitung können Sie Ihre Batch-Datenquelle und die Funktion zur Funktionstransformation angeben (z. B. Anzahl der Produktansichten oder Zeitfensteraggregate) und SageMaker Feature Store wandelt die Daten zum Zeitpunkt der Aufnahme in ML-Funktionen um. Mit Amazon SageMaker Data Wrangler können Sie Features direkt im SageMaker Feature Store veröffentlichen. Mit dem Apache-Spark-Konnektor können Sie mit einer einzigen Codezeile eine große Datenmenge im Batch-Verfahren aufnehmen.

Screenshot von

Speicherung, Katalogisierung, Suche und Wiederverwendung von Funktionen

Amazon SageMaker Feature Store markiert und indiziert Feature-Gruppen, sodass sie über eine visuelle Benutzeroberfläche in Amazon SageMaker Studio einfach auffindbar sind. Das Durchsuchen des Funktionskatalogs ermöglicht es den Teams, vorhandene Funktionen zu entdecken, die sie ohne Bedenken wiederverwenden können, und die Duplizierung von Pipelines zu vermeiden. SageMaker Feature Store verwendet standardmäßig den AWS-Glue-Datenkatalog, erlaubt Ihnen aber, einen anderen Katalog zu verwenden, wenn Sie das wünschen. Sie können auch Features mit vertrauter SQL mit Amazon Athena oder einem anderen Abfragetool Ihrer Wahl abfragen.

Die Abbildung zeigt den Feature-Gruppen-Katalog

Funktionskonsistenz

Der SageMaker Feature Store unterstützt die Offline-Speicherung für das Training und die Online-Speicherung für die Echtzeit-Inferenz. Training und Inferenz sind sehr unterschiedliche Anwendungsfälle und die Speicheranforderungen sind für beide unterschiedlich. Beim Training verwenden die Modelle oft den kompletten Datensatz und können Stunden in Anspruch nehmen, während die Inferenz innerhalb von Millisekunden erfolgen muss und in der Regel eine Teilmenge der Daten verwendet wird. Bei gleichzeitiger Verwendung stellt SageMaker Feature Store sicher, dass Offline- und Online-Datensätze synchron bleiben, was von entscheidender Bedeutung ist, denn wenn sie voneinander abweichen, kann dies die Modellgenauigkeit negativ beeinflussen.

Die Abbildung zeigt die Erstellung einer Feature-Gruppe

Zeitreise

Datenwissenschaftler müssen möglicherweise Modelle mit dem exakten Satz von Funktionswerten aus einer bestimmten Zeit in der Vergangenheit trainieren, ohne das Risiko einzugehen, Daten von späteren Zeitpunkten einzubeziehen (auch als Funktionsverlust bezeichnet), wie etwa medizinische Patientendaten vor einer Diagnose. Die Offline-API des SageMaker Feature Store unterstützt zeitpunktbezogene Abfragen, um den Status jedes Features zum gewünschten historischen Zeitpunkt abzurufen.  

Die Abbildung zeigt den Ablauf der Abfragen der Offline-API des Feature Store, um den Status jedes Merkmals zum gewünschten historischen Zeitpunkt abzurufen

Sicherheit und Governance

Verfolgung der Abstammung

Um eine zuverlässige Wiederverwendung von Funktionen zu gewährleisten, müssen Datenwissenschaftler wissen, wie die Funktionen erstellt wurden und von welchen Modellen und Endpunkten sie genutzt werden. SageMaker Feature Store ermöglicht es Datenwissenschaftlern, ihre Funktionen in Amazon SageMaker Studio mit SageMaker Lineage zu verfolgen. Mit SageMaker Lineage können Sie geplante Pipeline-Ausführungen nachverfolgen, die Upstream-Herkunft visualisieren, um Funktionen bis zu ihren Datenquellen zurückzuverfolgen, und den Code zur Verarbeitung von Funktionen anzeigen – alles in einer einzigen Umgebung.

Das Bild zeigt die Herkunft der Feature-Gruppe in SageMaker Studio

ML-Vorgänge

Feature-Stores sind eine Schlüsselkomponente im Lebenszyklus von MLOps. Sie verwalten Datensätze und Funktionspipelines, beschleunigen datenwissenschaftliche Aufgaben und verhindern, dass dieselben Funktionen mehrfach erstellt werden müssen. SageMaker Feature Store kann als eigenständiger Service oder zusammen mit anderen SageMaker-Services auf integrierte Weise über den gesamten MLOps-Lebenszyklus hinweg genutzt werden.

Sicherheit und Compliance

Um Sicherheits- und Compliance-Anforderungen zu erfüllen, benötigen Sie unter Umständen eine genaue Kontrolle darüber, wie auf gemeinsam genutzte ML-Funktionen zugegriffen wird. Diese Anforderungen gehen oft über die Zugriffskontrolle auf Tabellen- und Spaltenebene hinaus und erstrecken sich auch auf die Zugriffskontrolle auf Zeilenebene. Beispielsweise können Sie Kundenbetreuern die Möglichkeit geben, Zeilen aus einer Verkaufstabelle nur für ihre Konten zu sehen und das Präfix von sensiblen Daten wie Kreditkartennummern zu verbergen. SageMaker Feature Store kann gemeinsam mit AWS Lake Formation verwendet werden, um fein abgestufte Zugriffskontrollen zu implementieren, um Feature-Store-Daten zu schützen und rollenbasierten Zugriff zu gewähren.

Das Bild zeigt, wie SageMaker Feature Store und AWS Lake Formation verwendet werden können, um fein abgestufte Zugriffskontrollen zu implementieren

Neuerungen

  • Datum (neuestes bis ältestes)
Keine Ergebnisse gefunden
1