El Proyecto de 1 000 genomas es una colaboración internacional que ha desarrollado el catálogo más detallado de la variación genética humana, incluidos polimorfismos de un solo nucleótido, variantes estructurales y el contexto del haplotipo. La fase final del proyecto secuenció a más de 2 500 personas de 26 poblaciones distintas de todo el mundo y produjo un conjunto integrado de haplotipos de fase con más de 80 millones de variantes para esas personas.
El reflejo de Amazon contiene el conjunto de datos completo del proyecto, datos a los que se puede obtener acceso aquí: s3.amazonaws.com/1000genomes.
Para obtener más información, visite http://www.1000genomes.org. Si tiene alguna duda, envíe un email a [email protected].
AWS pone a disposición de la comunidad los datos del proyecto de 1 000 genomas de forma gratuita. Los conjuntos de datos públicos en AWS proporcionan un repositorio centralizado de datos públicos hospedados en Amazon Simple Storage Service (Amazon S3). Se puede obtener acceso sencillo a los datos desde servicios de AWS como Amazon Elastic Compute Cloud (Amazon EC2) y Amazon Elastic MapReduce (Amazon EMR), que proporcionan a las organizaciones los recursos informáticos de alta escalabilidad necesarios para aprovechar estos conjuntos de datos de gran tamaño. AWS almacena los conjuntos de datos públicos de forma gratuita para ponerlos a disposición de la comunidad. Los investigadores únicamente pagan por los recursos de AWS adicionales que necesitan para un procesamiento o análisis más detallado de los datos. Más información sobre conjuntos de datos públicos en AWS.
Los datos más recientes del Proyecto de 1 000 genomas están disponibles públicamente en el bucket 1000genomes de Amazon S3.
Puede obtener acceso a los datos mediante solicitudes HTTP sencillas o aprovechar los AWS SDK en lenguajes como Ruby, Java, Python, .NET y PHP.
Los investigadores pueden utilizar el servicio de informática de la utilidad Amazon EC2 para analizar en profundidad estos datos sin la inversión de capital habitual necesaria para trabajar con datos a esta escala. AWS también proporciona una serie de servicios de orquestación y automatización para ayudar a los equipos a difundir la investigación con fines de mezcla y reutilización.
Al poner los datos a disposición mediante un bucket en Amazon S3, los clientes también pueden administrar la información con Hadoop mediante Amazon Elastic MapReduce y aprovechar el creciente conjunto de herramientas para ejecutar flujos de trabajos de bioinformática, como CloudBurst y Crossbow.
El Centro Nacional para la Información Biotecnológica (NCBI) de NIH, una división de la Biblioteca Nacional de Medicina de Estados Unidos en NIH:
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov (para el acceso por IPv6)
- 1 000 genomas: NCBI/NLM/NIH (mediante Aspera)
El Instituto Europeo de Bioinformática (EMBL-EBI), con soporte de la fundación Wellcome Trust:
- ftp://ftp.1000genomes.ebi.ac.uk/vol1/
- http://www.1000genomes.org/aspera (mediante Aspera)
Los profesores, investigadores y estudiantes pueden solicitar créditos gratuitos para aprovechar la plataforma informática de utilidades que ofrece AWS, junto con conjuntos de datos públicos, como los datos del proyecto de 1 000 genomas. Si desarrolla un taller de genómica o participa en un proyecto de investigación que podría beneficiarse del conjunto de datos de 1 000 genomas hospedados, puede solicitar una beca de AWS.