Amazon SageMaker Feature Store

Layanan terkelola penuh untuk fitur machine learning

Bagaimana cara kerja Amazon SageMaker Feature Store?

Menyimpan, berbagi, dan mengelola fitur model ML untuk pelatihan serta inferensi

Cara kerja

Cara kerja: Amazon SageMaker Feature Store

Keuntungan Tempat Penyimpanan Fitur SageMaker

Serap fitur dari semua sumber data termasuk streaming dan batch seperti log aplikasi, log layanan, clickstream, sensor, dan data tabel dari AWS atau sumber data pihak ketiga
Simpan, bagikan, dan kelola fitur model ML untuk pelatihan dan inferensi guna mempromosikan penggunaan ulang fitur di seluruh aplikasi ML
Ubah data menjadi fitur ML dan buat jalur fitur yang mendukung praktik MLOps dan mempercepat waktu untuk memodelkan deployment

Manajemen Fitur

Pemrosesan dan penyerapan fitur

Anda dapat menyerap data ke Penyimpanan Fitur SageMaker dari berbagai sumber, seperti log aplikasi dan layanan, clickstream, sensor, dan data tabular dari Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake, dan Databricks Delta Lake. Dengan pemrosesan fitur, Anda dapat menentukan sumber data batch dan fungsi transformasi fitur (misalnya, jumlah tampilan produk atau agregat jendela waktu) dan SageMaker Feature Store mengubah data tersebut pada saat diserap ke dalam fitur ML. Dengan Amazon SageMaker Data Wrangler, Anda dapat memublikasikan fitur secara langsung ke Penyimpanan Fitur SageMaker. Dengan konektor Apache Spark, Anda dapat menyerap batch data bervolume tinggi hanya dengan satu baris kode.

Tangkapan layar

Penyimpanan, katalog, pencarian, penggunaan kembali fitur

Penyimpanan Fitur Amazon SageMaker menandai dan mengindeks grup fitur sehingga dapat ditemukan dengan mudah melalui antarmuka visual Amazon SageMaker Studio. Menjelajahi katalog fitur memungkinkan tim menemukan fitur yang ada yang dapat dengan yakin mereka gunakan kembali dan menghindari duplikasi pipeline. Penyimpanan Fitur SageMaker menggunakan Katalog Data AWS Glue secara default, tetapi Anda dapat menggunakan katalog yang berbeda jika Anda menginginkannya. Anda juga dapat mengueri fitur menggunakan SQL yang biasa digunakan dengan Amazon Athena atau alat kueri lain pilihan Anda.

Gambar menampilkan katalog grup fitur

Konsistensi fitur

SageMaker Feature Store mendukung penyimpanan offline untuk pelatihan dan penyimpanan online untuk inferensi waktu nyata. Pelatihan dan inferensi adalah kasus penggunaan yang sangat berbeda dan persyaratan penyimpanannya berbeda untuk tiap-tiap kasus. Selama pelatihan, model sering kali menggunakan set data lengkap dan membutuhkan waktu penyelesaian selama berjam-jam, sedangkan inferensi terjadi dalam hitungan milidetik dan biasanya memerlukan subset data. Saat digunakan bersama-sama, SageMaker Feature Store akan memastikan set data offline dan online tetap tersinkronkan. Hal ini menjadi sangat penting karena jika menyimpang, set data tersebut dapat berdampak negatif terhadap akurasi model.

Gambar menampilkan pembuatan grup fitur

Perjalanan waktu

Ilmuwan data mungkin perlu melatih model dengan serangkaian nilai fitur yang tepat dari waktu tertentu di masa lalu tanpa risiko memasukkan data yang berasal dari luar waktu tersebut (juga dikenal sebagai kebocoran fitur), seperti data medis pasien sebelum diagnosis. API Offline Penyimpanan Fitur SageMaker mendukung kueri titik waktu untuk mengambil status setiap fitur pada riwayat waktu yang dituju.  

Gambar menampilkan aliran kueri API Offline Penyimpanan Fitur untuk mengambil status setiap fitur pada riwayat waktu yang dituju

Keamanan dan Tata Kelola

Pelacakan lini

Untuk memungkinkan penggunaan kembali fitur dengan yakin, para ilmuwan data perlu mengetahui cara fitur dibangun dan model serta titik akhir yang menggunakannya. SageMaker Feature Store memungkinkan ilmuwan data untuk melacak fitur mereka di Amazon SageMaker Studio dengan SageMaker Lineage. SageMaker Lineage memungkinkan Anda melacak eksekusi jalur terjadwal, memvisualisasikan silsilah hulu untuk melacak fitur kembali ke sumber datanya, dan melihat kode pemrosesan fitur, semuanya dalam satu lingkungan.

Gambar menampilkan silsilah grup fitur di SageMaker Studio

Operasi ML

Penyimpanan fitur merupakan komponen kunci dalam siklus hidup MLOps. Penyimpanan tersebut mengelola pipeline set data dan fitur, yang mempercepat tugas-tugas ilmu data dan meniadakan perulangan pekerjaan dalam membuat fitur yang sama beberapa kali. SageMaker Feature Store dapat digunakan sebagai layanan yang berdiri sendiri atau berjalan bersama dengan layanan SageMaker lainnya secara terintegrasi di seluruh siklus hidup MLOps.

Keamanan dan kepatuhan

Untuk mendukung kebutuhan keamanan dan kepatuhan, Anda mungkin membutuhkan kontrol terperinci atas cara fitur ML yang dibagikan akan diakses. Kebutuhan tersebut sering kali lebih dari sekadar kontrol akses tingkat tabel dan kolom ke kontrol akses tingkat baris. Misalnya, Anda mungkin ingin memungkinkan perwakilan akun agar dapat melihat baris dari tabel penjualan hanya untuk akun mereka dan menyembunyikan prefiks data sensitif seperti nomor kartu kredit. Penyimpanan Fitur SageMaker bersama dengan AWS Lake Formation dapat digunakan untuk mengimplementasikan kontrol akses terperinci untuk melindungi data penyimpanan fitur dan memberikan akses berdasarkan peran.

Gambar menunjukkan bagaimana Penyimpanan Fitur SageMaker dan AWS Lake Formation dapat digunakan untuk mengimplementasikan kontrol akses terperinci

Yang baru

  • Tanggal (Terbaru hingga Terlama)
Hasil tidak ditemukan
1