Il progetto 1000 Genomes è una collaborazione internazionale che ha costituito il catalogo più dettagliato delle variazioni genetiche dell’essere umano, fra cui gli SNP, le varianti strutturali e il loro contesto aplotipico. Durante la fase finale del progetto sono stati sequenziati più di 2.500 individui, presi da 26 popolazioni diverse in tutto il mondo, ed è stato prodotto un gruppo integrato di aplotipi scaglionati con più di 80 milioni di varianti.

Lo specchio Amazon contiene il set di dati completo del progetto ed è possibile trovare i dati su s3.amazonaws.com/1000genomes.

Per ulteriori informazioni, consulta http://www.1000genomes.org. Se hai domande, invia un’e-mail a [email protected].

AWS pubblica i dati del progetto 1000 Genomes per renderli disponibili gratuitamente alla community. Set di dati pubblici AWS fornisce un repository centralizzato di dati pubblici ospitato su Amazon Simple Storage Service (Amazon S3). I dati sono facilmente accessibili da servizi AWS come Amazon Elastic Compute Cloud (Amazon EC2) e Amazon Elastic MapReduce (Amazon EMR), che forniscono alle organizzazioni le risorse di calcolo a scalabilità elevata necessarie per consultare raccolte di dati di grandi dimensioni. AWS memorizza i set di dati pubblici senza costi per la community. I ricercatori pagano solo le risorse AWS supplementari di cui hanno bisogno per elaborazioni ulteriori o analisi dei dati. Ulteriori informazioni su Set di dati pubblici AWS.

I dati più recenti del progetto 1000 Genomes è disponibile al pubblico nel bucket di Amazon S3 1000genomes.

È possibile accedere ai dati tramite semplici richieste HTTP o utilizzare gli SDK AWS in linguaggi come Ruby, Java, Python, .NET e PHP.

I ricercatori possono utilizzare il servizio di calcolo di utilità di Amazon EC2 per analizzare in modo approfondito questi dati senza l’investimento finanziario solitamente necessario per lavorare su dati su questa scala. AWS fornisce anche vari servizi di orchestrazione e automazione per aiutare i team a mettere a disposizione degli altri le loro ricerche per utilizzo ed elaborazione ulteriori.

I dati messi a disposizione in un bucket in Amazon S3 consentono inoltre ai clienti di utilizzare le informazioni usando Hadoop tramite Amazon Elastic MapReduce e sfruttare la raccolta crescente di strumenti per eseguire flussi di lavoro di bioinformatica, come CloudBurst e Crossbow.

L’NIH National Center for Biotechnology Information (NCBI), una divisione della National Library of Medicine a NIH:

The European Bioinformatics Institute (EMBL-EBI), con il supporto del Wellcome Trust:

Insegnanti, ricercatori e studenti possono richiedere crediti gratuiti per sfruttare la piattaforma di elaborazione offerta da AWS, insieme a set di dati pubblici come quelli del progetto 1000 Genomes. Se devi tenere un seminario di genomica o hai un progetto di ricerca che può utilizzare il set di dati 1000 Genomes in hosting, puoi chiedere un sovvenzionamento da AWS.