Projet 1000 Genomes et AWS

Le projet 1000 Genomes est le fruit d'une collaboration internationale qui a établi le catalogue des variations génétiques humaines le plus détaillé, en incluant notamment les polymorphismes nucléotidiques simples (SNP), les variantes structurelles et leur contexte d'haplotype. La phase finale du projet a séquencé l'ADN de plus de 2 500 personnes issues de 26 populations différentes dans le monde, et a produit un ensemble intégré d'haplotypes phasés avec plus de 80 millions de variantes pour ces individus.

Le miroir Amazon contient l'ensemble complet des données du projet. Les données sont disponibles à l'adresse : s3.amazonaws.com/1000genomes.

Pour plus d'informations, consultez le site http://www.1000genomes.org. Si vous avez des questions, envoyez un e-mail à [email protected].

Accès aux données du projet 1000 Genomes

AWS diffuse gratuitement à la communauté le projet 1000 Genomes. Des ensembles de données publics sur AWS fournissent un répertoire centralisé de données publiques hébergées sur Amazon Simple Storage Service (Amazon S3). Les données peuvent être accessibles sans difficulté depuis des services AWS tels qu'Amazon Elastic Compute Cloud (Amazon EC2) et Amazon Elastic MapReduce (Amazon EMR), fournissant aux organisations les ressources de calcul hautement évolutives dont elles ont besoin pour tirer profit de ces grandes collectes de données. AWS stocke gratuitement les ensembles de données publics pour la communauté. Les chercheurs ne paient que les ressources AWS dont ils ont besoin pour effectuer un traitement ou une analyse des données supplémentaire. En savoir plus sur les ensembles de données publics.

Les données les plus récentes du projet 1000 Genomes sont disponibles publiquement dans le compartiment Amazon S3 1000genomes.

Vous pouvez accéder aux données via des requêtes HTTP simples, ou bénéficier de l'AWS SDK dans des langages tels que Ruby, Java, Python, .NET et PHP.

Analyse des données du projet 1000 Genomes

Les chercheurs peuvent utiliser le service d'Utility Computing Amazon EC2 sans avoir à réaliser les investissements en capital généralement requis pour travailler sur des données à cette échelle. AWS propose également un certain nombre de services d'orchestration et d'automatisation permettant aux équipes de mettre à disposition leurs études pour que d'autres puissent se les approprier et les réutiliser.

Cela veut également dire que, grâce à cette diffusion via un compartiment dans Amazon S3, les clients pourront analyser ces données en utilisant Hadoop via Amazon Elastic MapReduce et utiliser certains outils, tels que CloudBurst et Crossbow, leur permettant d'exécuter des flux de travail bio-informatiques.

Autres sources

Centre National pour les informations biotechnologiques (NCBI) du Ministère de la Santé Américain (NIH), une division de la Bibliothèque nationale de médecine des États-Unis :

ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
ftp6.ncbi.nlm.nih.gov (pour un accès IPv6)
1000 Genomes : NCBI/NLM/NIH (via Aspera)

Institut européen de bio-informatique (EMBL-EBI), avec le soutien du Wellcome Trust :

ftp://ftp.1000genomes.ebi.ac.uk/vol1/
http://www.1000genomes.org/aspera (via Aspera)

Programme de subventions pour l'enseignement

Les professeurs, les chercheurs et les étudiants peuvent postuler pour l'obtention de crédits leur permettant de bénéficier gratuitement de la plate-forme informatique utilitaire proposée par AWS, ainsi que des ensembles de données publics telles que les données du projet 1000 Genomes. Si vous organisez un atelier sur la génomique ou élaborez un projet de recherche qui pourrait tirer profit de l'ensemble des données hébergées du projet 1000 Genomes, une subvention AWS peut vous être attribuée sur simple demande.

Projet 1000 Genomes et AWS

Accès aux données du projet 1000 Genomes

Analyse des données du projet 1000 Genomes

Autres sources

Programme de subventions pour l'enseignement

Fin de la prise en charge d'Internet Explorer