Mengapa harus Glue?
Dengan AWS Glue, Anda membayar tarif per jam, yang ditagihkan berdasarkan detik, untuk perayap (penjelajahan data) dan tugas extract, transform, and load (ETL) (pemrosesan dan pemuatan data). Untuk Katalog Data AWS Glue, Anda cukup membayar biaya bulanan untuk menyimpan dan mengakses metadata. Gratis untuk satu juta objek pertama yang disimpan dan satu juta akses pertama. Jika Anda menyediakan titik akhir pengembangan untuk mengembangkan kode ETL secara interaktif, Anda cukup membayar tarif per jam, yang ditagihkan per detik. Untuk AWS Glue DataBrew, sesi interaktif ditagihkan per sesi dan tugas DataBrew ditagihkan per menit. Penggunaan Registri Skema AWS Glue ditawarkan tanpa biaya tambahan.
Catatan: Harga dapat bervariasi berdasarkan Wilayah AWS.
-
Tugas ETL dan sesi interaktif
-
Katalog Data
-
Perayap
-
Sesi interaktif DataBrew
-
Tugas DataBrew
-
Kualitas Data
-
Tugas ETL dan sesi interaktif
-
Contoh harga
Tugas ETL: Asumsikan tugas AWS Glue Apache Spark berjalan selama 15 menit dan menggunakan 6 DPU. Harga 1 Jam DPU adalah 0,44 USD. Karena tugas Anda berjalan selama 1/4 jam dan menggunakan 6 DPU, AWS akan menagih Anda 6 DPU * 1/4 jam * 0,44 USD, atau 0,66 USD.
Notebook Tugas AWS Glue Studio dan Sesi Interaktif: Misalnya, Anda menggunakan notebook di AWS Glue Studio untuk mengembangkan kode ETL Anda secara interaktif. Sesi Interaktif memiliki 5 DPU secara default. Jika sesi tetap berjalan selama 24 menit atau 2/5 jam, Anda akan ditagih untuk 5 DPU * 2/5 jam dengan harga 0,44 USD per jam-DPU atau 0,88 USD.
Transformasi ML: Serupa dengan tugas AWS Glue yang dijalankan, biaya menjalankan Transformasi ML, termasuk FindMatches, pada data Anda akan bervariasi berdasarkan ukuran data, konten data, serta jumlah dan jenis simpul yang Anda gunakan. Dalam contoh berikut, kami menggunakan FindMatches untuk mengintegrasikan informasi lokasi penting dari beberapa sumber data. Dengan ukuran set data ~11.000.000 baris (1,6 GB), ukuran data Label (contoh kecocokan yang benar atau ketidakcocokan yang benar) ~8.000 baris (641 KB), berjalan pada 16 instans tipe G.2x, maka Anda akan memiliki runtime pembuatan set label 34 menit dengan biaya 8,23 USD, runtime estimasi metrik 11 menit dengan biaya 2,66 USD, dan runtime eksekusi tugas FindingMatches 32 menit dengan biaya 7,75 USD.
-
Katalog Data
-
Contoh harga
Katalog Data AWS Glue tingkat gratis: Anggap Anda menyimpan satu juta tabel di dalam Katalog Data Anda dalam satu bulan tertentu dan membuat satu juta permintaan untuk mengakses tabel ini. Anda membayar 0 USD karena penggunaan Anda termasuk dalam Katalog Data AWS Glue tingkat gratis. Anda dapat menyimpan satu juta objek pertama dan membuat satu juta permintaan per bulan secara gratis.
Katalog Data AWS Glue: Sekarang, anggap penggunaan penyimpanan Anda tetap, yaitu satu juta tabel per bulan, tetapi permintaan Anda menjadi dua kali lipat hingga dua juta permintaan per bulan. Selain itu, Anda juga menggunakan perayap untuk menemukan tabel baru, menjalankannya selama 30 menit, dan menggunakan 2 DPU.
Biaya penyimpanan Anda tetap 0 USD, karena penyimpanan untuk satu juta tabel pertama adalah gratis. Satu juta permintaan pertama Anda juga gratis. Anda akan ditagih untuk satu juta permintaan yang melebihi tingkat gratis, yakni sebesar 1 USD. Perayap ditagih sebesar 0,44 USD per Jam-DPU sehingga Anda akan membayar 2 DPU * 1/2 jam dengan harga 0,44 USD per Jam-DPU atau 0,44 USD.
Jika Anda menghasilkan statistik pada tabel Glue, dan menjalankan statistik memakan waktu 10 menit dan menggunakan 1 DPU, Anda akan ditagih 1 DPU * 1/6 jam * 0,44 USD/jam-DPU, yang setara dengan 0,07 USD.
Jika Anda memadatkan tabel Apache Iceberg, dan pemadatan berjalan selama 30 menit dan menggunakan 2 DPU, Anda akan ditagih 2 DPU * 1/2 jam * 0,44 USD/jam-DPU, yang setara dengan 0,44 USD. -
Perayap
-
-
Sesi interaktif DataBrew
-
Contoh harga
AWS Glue DataBrew: Harga untuk setiap 30 menit sesi interaktif adalah 1,00 USD. Jika Anda memulai sesi pada pukul 9.00, lalu keluar dari konsol, dan kembali lagi pada pukul 9.20–9.30, berarti Anda akan menggunakan 1 sesi dengan total 1,00 USD.
Jika Anda memulai sesi pada pukul 09.00 dan berinteraksi dengan konsol DataBrew hingga pukul 09.50, lalu keluar dari ruang proyek DataBrew, dan kembali untuk melakukan interaksi terakhir pada pukul 10.15, aktivitas ini akan menggunakan 3 sesi dan Anda akan ditagih 1,00 USD per sesi dengan total 3 USD.
-
Tugas DataBrew
-
Contoh harga
AWS Glue DataBrew: Jika tugas DataBrew berjalan selama 10 menit dan menggunakan 5 simpul DataBrew, harganya akan menjadi 0,40 USD. Karena tugas Anda berjalan selama 1/6 jam dan menggunakan 5 simpul, Anda akan ditagih 5 simpul x 1/6 jam x 0,48 USD per jam simpul dengan total 0,40 USD.
-
Kualitas Data
-
Kualitas Data AWS Glue membangun keyakinan pada data Anda dengan membantu Anda mencapai kualitas data yang tinggi. AWS Glue DataBrew secara otomatis mengukur, memantau, dan mengelola kualitas data pada danau data dan alur Anda sehingga memudahkan untuk mengidentifikasi data yang hilang, kedaluwarsa, atau buruk.
Anda dapat mengakses fitur kualitas data dari Katalog Data dan AWS Glue Studio serta melalui API AWS Glue.
Harga untuk mengelola kualitas data dari set data yang dikatalogkan dalam Katalog Data:Anda dapat memilih set data dari Katalog Data dan membuat rekomendasi. Tindakan ini akan membuat Tugas Rekomendasi yang akan Anda sediakan dengan unit pemrosesan data (DPU). Setelah mendapatkan rekomendasi, Anda dapat mengubah atau menambahkan aturan baru dan menjadwalkannya. Tugas ini disebut Tugas Kualitas Data yang akan Anda sediakan dengan DPU. Anda akan memerlukan minimal 2 DPU dengan durasi penagihan minimum 1 menit.
Harga untuk mengelola kualitas data dari set data yang diproses di AWS Glue ETL:Anda juga dapat menambahkan pemeriksaan kualitas data ke tugas ETL untuk mencegah data yang buruk memasuki danau data Anda. Aturan kualitas data ini akan berada di tugas ETL Anda, sehingga menghasilkan peningkatan runtime atau peningkatan penggunaan DPU. Anda juga dapat menggunakan eksekusi Fleksibel untuk beban kerja sensitif non-SLA.
Harga untuk mendeteksi anomali di AWS Glue ETL:
Deteksi anomali:
Anda akan dikenai 1 DPU per statistik sebagai tambahan dari DPU tugas ETL Anda untuk waktu yang dibutuhkan dalam mendeteksi anomali. Rata-rata, dibutuhkan antara 10–20 detik untuk mendeteksi anomali pada 1 statistik. Mari kita asumsikan bahwa Anda mengonfigurasi dua Aturan (Rule1: volume data harus lebih besar dari 1000 catatan, Rule2: jumlah kolom harus lebih besar dari 10) dan satu Penganalisis (Penganalisis 1: pantau kelengkapan kolom). Konfigurasi ini akan menghasilkan tiga statistik: jumlah baris, jumlah kolom, dan persentase kelengkapan kolom. Anda akan dikenai biaya 3 DPU tambahan untuk waktu yang dibutuhkan dalam mendeteksi anomali dengan waktu minimum 1 detik. Lihat contoh - 4 untuk lebih jelasnya.
Pelatihan ulang:
Anda mungkin ingin mengecualikan proses tugas atau statistik anomali, sehingga algoritma deteksi anomali dapat memprediksi anomali berikutnya secara akurat. Untuk melakukan hal ini, AWS Glue memungkinkan Anda untuk mengecualikan atau menyertakan statistik. Anda akan dikenai 1 DPU untuk melatih ulang model pada waktu yang dibutuhkan untuk melatih ulang. Rata-rata, pelatihan ulang membutuhkan waktu 10 detik hingga 20 menit per statistik. Lihat contoh 5 untuk lebih jelasnya.
Penyimpanan statistik:
Tidak ada biaya untuk menyimpan statistik yang dikumpulkan. Ada batas 100 ribu statistik per akun dan itu akan disimpan selama 2 tahun.
Biaya tambahan:
AWS Glue memproses data secara langsung dari Amazon Simple Storage Service (Amazon S3). Tidak ada biaya penyimpanan tambahan untuk membaca data Anda dengan AWS Glue. Anda dikenakan tarif Amazon S3 standar untuk penyimpanan, permintaan, dan transfer data. Berdasarkan konfigurasi Anda, file sementara, hasil kualitas data, dan file shuffle akan disimpan di bucket S3 pilihan Anda serta akan ditagih sesuai tarif S3 standar.
Jika Anda menggunakan Katalog Data, Anda dikenai tarif Katalog Data AWS Glue standar. Untuk detailnya, pilih tab penyimpanan dan permintaan Katalog Data.
Contoh harga
Contoh 1 – Dapatkan rekomendasi untuk tabel di Katalog DataMisalnya, pertimbangkan tugas rekomendasi dengan 5 DPU yang selesai dalam 10 menit. Anda akan membayar 5 DPU x 1/6 jam x 0,44 USD, yang setara dengan 0,37 USD.
Contoh 2 – Evaluasi kualitas data tabel di Katalog DataSetelah meninjau rekomendasi, Anda dapat mengeditnya jika perlu dan menjadwalkan tugas kualitas data dengan menyediakan DPU. Misalnya, Anda memiliki tugas evaluasi kualitas data dengan 5 DPU yang selesai dalam 20 menit.
Anda akan membayar 5 DPU x 1/3 jam x 0,44 USD, dengan total 0,73 USD.
Contoh 3 – Evaluasi kualitas data di tugas ETL AWS GlueAnda juga dapat menambahkan pemeriksaan kualitas data ke tugas ETL AWS Glue untuk mencegah daya yang buruk memasuki danau data Anda. Anda dapat melakukannya dengan menambahkan Transformasi Kualitas Data ke AWS Glue Studio atau API AWS Glue dalam kode yang Anda tulis di notebook AWS Glue Studio. Anggaplah Anda memiliki operasi tugas AWS Glue dimana aturan kualitas data dikonfigurasi di dalam alur, yang berjalan selama 20 menit (1/3 jam) dengan 6 DPU. Anda akan dikenakan tarif 6 DPU x 1/3 jam x 0,44 USD, dengan total 0,88 USD. Anda juga dapat menggunakan Flex, yang akan mengenakan tarif 6 DPU x 1/3 jam x 0,29 USD, dengan total 0,58 USD.
Contoh 4—Mengevaluasi kualitas data dalam tugas AWS Glue ETL dengan Deteksi Anomali
Pertimbangkan tugas AWS Glue yang membaca data dari Amazon S3, mentransformasikan data, dan menjalankan pemeriksaan kualitas data sebelum memuat ke Amazon Redshift. Asumsikan bahwa pipeline ini memiliki 10 aturan dan 10 penganalisis yang menghasilkan 20 statistik yang dikumpulkan. Kemundian, asumsikan bahwa ekstraksi, proses transformasi, pemuatan, pengumpulan statistik, evaluasi kualitas data akan memakan waktu selama 20 menit. Tanpa mengaktifkan Deteksi Anomali, pelanggan akan dikenai biaya 6 DPU x 1/3 jam (20 menit) x 0,44 USD, dengan total 0,88 USD (A). Dengan mengaktifkan Deteksi Anomali, kami akan menambahkan 1 DPU untuk setiap statistik dan akan memakan waktu rata-rata 15 detik untuk mendeteksi anomali. Dalam contoh ini, pelanggan akan mengeluarkan 20 statistik x 1 DPU x 15/3600 (0,0041 jam/statistik) x 0,44 USD (biaya per DPU/jam) = 0,037 USD (B). Total biaya tugas mereka adalah 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Contoh 5—Pelatihan UlangPertimbangkan bahwa tugas Glue Anda mendeteksi anomali. Anda memutuskan untuk mengecualikan anomali dari model sehingga algoritma deteksi anomali memprediksi anomali masa depan secara akurat. Untuk melakukan hal ini, Anda dapat melatih ulang model dengan mengecualikan statistik anomali ini. Anda akan dikenai 1 DPU per statistik untuk waktu yang dibutuhkan dalam melatih ulang model. Rata-rata, hal ini bisa memakan waktu selama 15 detik. Dalam contoh ini, dengan asumsi Anda mengecualikan 1 titik data, Anda akan mengeluarkan 1 statistik x 1 DPU x 15/3600 (0,0041 jam/statistik) x 0,44 USD = 0,00185 USD.
Catatan: Harga dapat bervariasi berdasarkan Wilayah.
Lihat tabel Wilayah Global untuk mempelajari ketersediaan AWS Glue selengkapnya.