Bagaimana cara kerja Amazon SageMaker Feature Store?
Cara kerja
Keuntungan Tempat Penyimpanan Fitur SageMaker
Manajemen Fitur
Pemrosesan dan penyerapan fitur
Anda dapat menyerap data ke Penyimpanan Fitur SageMaker dari berbagai sumber, seperti log aplikasi dan layanan, clickstream, sensor, dan data tabular dari Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake, dan Databricks Delta Lake. Dengan pemrosesan fitur, Anda dapat menentukan sumber data batch dan fungsi transformasi fitur (misalnya, jumlah tampilan produk atau agregat jendela waktu) dan SageMaker Feature Store mengubah data tersebut pada saat diserap ke dalam fitur ML. Dengan Amazon SageMaker Data Wrangler, Anda dapat memublikasikan fitur secara langsung ke Penyimpanan Fitur SageMaker. Dengan konektor Apache Spark, Anda dapat menyerap batch data bervolume tinggi hanya dengan satu baris kode.
Penyimpanan, katalog, pencarian, penggunaan kembali fitur
Penyimpanan Fitur Amazon SageMaker menandai dan mengindeks grup fitur sehingga dapat ditemukan dengan mudah melalui antarmuka visual Amazon SageMaker Studio. Menjelajahi katalog fitur memungkinkan tim menemukan fitur yang ada yang dapat dengan yakin mereka gunakan kembali dan menghindari duplikasi pipeline. Penyimpanan Fitur SageMaker menggunakan Katalog Data AWS Glue secara default, tetapi Anda dapat menggunakan katalog yang berbeda jika Anda menginginkannya. Anda juga dapat mengueri fitur menggunakan SQL yang biasa digunakan dengan Amazon Athena atau alat kueri lain pilihan Anda.
Konsistensi fitur
SageMaker Feature Store mendukung penyimpanan offline untuk pelatihan dan penyimpanan online untuk inferensi waktu nyata. Pelatihan dan inferensi adalah kasus penggunaan yang sangat berbeda dan persyaratan penyimpanannya berbeda untuk tiap-tiap kasus. Selama pelatihan, model sering kali menggunakan set data lengkap dan membutuhkan waktu penyelesaian selama berjam-jam, sedangkan inferensi terjadi dalam hitungan milidetik dan biasanya memerlukan subset data. Saat digunakan bersama-sama, SageMaker Feature Store akan memastikan set data offline dan online tetap tersinkronkan. Hal ini menjadi sangat penting karena jika menyimpang, set data tersebut dapat berdampak negatif terhadap akurasi model.
Perjalanan waktu
Ilmuwan data mungkin perlu melatih model dengan serangkaian nilai fitur yang tepat dari waktu tertentu di masa lalu tanpa risiko memasukkan data yang berasal dari luar waktu tersebut (juga dikenal sebagai kebocoran fitur), seperti data medis pasien sebelum diagnosis. API Offline Penyimpanan Fitur SageMaker mendukung kueri titik waktu untuk mengambil status setiap fitur pada riwayat waktu yang dituju.
Keamanan dan Tata Kelola
Pelacakan lini
Untuk memungkinkan penggunaan kembali fitur dengan yakin, para ilmuwan data perlu mengetahui cara fitur dibangun dan model serta titik akhir yang menggunakannya. SageMaker Feature Store memungkinkan ilmuwan data untuk melacak fitur mereka di Amazon SageMaker Studio dengan SageMaker Lineage. SageMaker Lineage memungkinkan Anda melacak eksekusi jalur terjadwal, memvisualisasikan silsilah hulu untuk melacak fitur kembali ke sumber datanya, dan melihat kode pemrosesan fitur, semuanya dalam satu lingkungan.
Operasi ML
Penyimpanan fitur merupakan komponen kunci dalam siklus hidup MLOps. Penyimpanan tersebut mengelola pipeline set data dan fitur, yang mempercepat tugas-tugas ilmu data dan meniadakan perulangan pekerjaan dalam membuat fitur yang sama beberapa kali. SageMaker Feature Store dapat digunakan sebagai layanan yang berdiri sendiri atau berjalan bersama dengan layanan SageMaker lainnya secara terintegrasi di seluruh siklus hidup MLOps.
Keamanan dan kepatuhan
Untuk mendukung kebutuhan keamanan dan kepatuhan, Anda mungkin membutuhkan kontrol terperinci atas cara fitur ML yang dibagikan akan diakses. Kebutuhan tersebut sering kali lebih dari sekadar kontrol akses tingkat tabel dan kolom ke kontrol akses tingkat baris. Misalnya, Anda mungkin ingin memungkinkan perwakilan akun agar dapat melihat baris dari tabel penjualan hanya untuk akun mereka dan menyembunyikan prefiks data sensitif seperti nomor kartu kredit. Penyimpanan Fitur SageMaker bersama dengan AWS Lake Formation dapat digunakan untuk mengimplementasikan kontrol akses terperinci untuk melindungi data penyimpanan fitur dan memberikan akses berdasarkan peran.