Kualitas Data AWS Glue

Hadirkan data berkualitas tinggi di seluruh danau data dan alur Anda

Mengapa harus Kualitas Data Glue?

Danau data dapat menjadi rawa data tanpa pengawasan yang tepat. Mengatur pemeriksaan kualitas data memakan waktu, membosankan, dan rawan kesalahan. Anda harus membuat aturan kualitas data secara manual dan menulis kode untuk memantau alur data, dan memperingatkan konsumen data saat kualitas data memburuk. Kualitas Data AWS Glue mengurangi upaya manual terkait kualitas dari hitungan hari menjadi jam. Kualitas Data AWS Glue secara otomatis menghitung statistik, merekomendasikan aturan kualitas, memantau, dan memperingatkan Anda saat mendeteksi masalah. Untuk masalah tersembunyi dan sulit ditemukan, Kualitas Data Glue menggunakan algoritma ML. Kekuatan gabungan pendekatan berbasis aturan dan ML, bersama dengan solusi nirserver, dapat diskalakan, dan terbuka, memungkinkan Anda memberikan data berkualitas tinggi untuk membuat keputusan bisnis yang meyakinkan. 

Fitur Kualitas Data AWS Glue

AWS Glue bersifat nirserver, sehingga Anda dapat menskalakan tanpa harus mengelola infrastruktur. AWS Glue menskalakan berbagai ukuran data dan menghadirkan penagihan sesuai pemakaian untuk meningkatkan ketangkasan dan memperbaiki biaya. AWS Glue Data Quality menggunakan Deequ, sebuah kerangka kerja sumber terbuka yang dibangun oleh Amazon dan digunakan untuk mengelola set data berskala petabita. Karena dibuat menggunakan sumber terbuka, Kualitas Data AWS Glue dapat memberikan fleksibiltas dan portabilitas tanpa penguncian.
AWS Glue Data Quality secara otomatis mengomputasi statistik untuk set data Anda. Fitur ini menggunakan statistik tersebut untuk merekomendasikan serangkaian aturan kualitas yang memeriksa kebaruan, akurasi, integritas, dan bahkan masalah yang sulit ditemukan. Anda dapat menyesuaikan aturan yang direkomendasikan, membuang aturan, atau menambahkan aturan baru sesuai kebutuhan. Saat mendeteksi adanya masalah terkait kualitas, Kualitas Data AWS Glue juga akan memberitahukannya sehingga Anda dapat segera bertindak.
Kualitas Data AWS Glue merupakan fitur yang cerdas. Fitur ini mempelajari pola pada statistik data yang dikumpulkan dari waktu ke waktu menggunakan algoritma ML. Kualitas Data AWS Glue mendeteksi anomali dan pola data yang tidak biasa, serta akan memberi tahu pengguna. Fitur ini juga secara otomatis membuat aturan untuk memantau pola-pola spesifik tersebut sehingga Anda dapat membangun aturan kualitas data secara progresif.
Data Anda diam di repositori yang berbeda dan berpindah dari satu repositori ke repositori lainnya. Memantau kualitas data saat data tersebut masuk atau saat bergerak sangatlah penting untuk dilakukan. Aturan Kualitas Data AWS Glue dapat diterapkan ke data diam dalam set data dan danau data Anda, serta ke seluruh alur data tempat data bergerak. Anda dapat menerapkan aturan di beberapa set data. Untuk pipeline data yang dibangun di AWS Glue Studio, Anda dapat menerapkan transformasi untuk mengevaluasi kualitas seluruh pipeline dengan biaya yang lebih murah karena data sudah ada dalam memori. Anda juga dapat menentukan aturan untuk menghentikan pipeline jika kualitasnya memburuk dan mencegah data yang buruk agar tidak masuk ke danau data Anda.
Gunakan lebih dari 25 aturan Kualitas Data AWS Glue yang siap pakai untuk memvalidasi data Anda dan mengidentifikasi data spesifik yang menyebabkan masalah. Terapkan pemeriksaan kualitas data yang membandingkan set data berbeda di sumber data berbeda dalam hitungan menit dengan aturan yang unik. Dengan menggunakan Glue ETL, Anda dapat dengan mudah mengatasi masalah ini dan memasukkan data berkualitas tinggi ke dalam repositori data Anda.