O projeto 1000 Genomes é uma colaboração internacional que estabeleceu o catálogo mais detalhado de variações genéticas humanas, incluindo SNPs, variantes estruturais e seu contexto de haplótipos. A fase final do projeto sequenciou mais de 2.500 indivíduos de 26 populações diferentes em todo o mundo e produziu um conjunto integrado de haplótipos faseados com mais de 80 milhões de variantes para esses indivíduos.
O espelho da Amazon contém o conjunto de dados completo do projeto. Os dados podem ser encontrados em: s3.amazonaws.com/1000genomes.
Para obter mais informações, consulte http://www.1000genomes.org. Se tiver dúvidas, envie um e-mail para [email protected].
A AWS está disponibilizando publicamente os dados do projeto 1000 Genomes para a comunidade de forma gratuita. Os bancos de dados públicos na AWS oferecem um repositório centralizado de dados públicos hospedado no Amazon Simple Storage Service (Amazon S3). Os dados podem ser facilmente acessados de serviços da AWS como o Amazon Elastic Compute Cloud (Amazon EC2) e Amazon Elastic MapReduce (Amazon EMR), que fornecem às organizações os recursos de computação altamente escalonáveis necessários para obter o benefício dessas coleções de dados de grande tamanho. A AWS armazena os bancos de dados públicos gratuitamente para a comunidade. Os pesquisadores pagam apenas pelos recursos adicionais da AWS que precisam para o processamento ou análise adicionais dos dados. Saiba mais sobre os bancos de dados públicos na AWS.
Os dados mais recentes do projeto 1000 Genomes estão publicamente disponíveis no bucket 1000genomes no Amazon S3.
Os dados podem ser acessados através de simples requisições HTTP ou você pode utilizar os AWS SDKs em linguagens como Ruby, Java, Python, .NET e PHP.
Os pesquisadores podem utilizar o serviço de computação utilitária do Amazon EC2 para mergulhar nesses dados sem o investimento em capital necessário para trabalhar com dados nessa escala. A AWS também fornece uma variedade de serviços de orquestração e automação para ajudar as equipes a disponibilizarem sua pesquisa para alteração e reutilização por outros.
A disponibilidade dos dados através de um bucket do Amazon S3 também significa que os clientes podem processar a informação usando o Hadoop no Amazon Elastic MapReduce e se beneficiar da coleção expansiva de ferramentas para execução de fluxos de trabalho de bioinformática, como o CloudBurst e o Crossbow.
O NIH National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine no NIH:
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov (para acesso IPv6)
- 1000 Genomes : NCBI/NLM/NIH (via Aspera)
The European Bioinformatics Institute (EMBL-EBI), com suporte do Wellcome Trust:
Educadores, pesquisadores e estudantes podem se inscrever para obter créditos gratuitos para usar a plataforma de computação utilitária oferecida pela AWS, juntamente com os bancos de dados públicos, como os dados do projeto 1000 Genomes. Se estiver realizando um workshop de genômica ou tiver um projeto de pesquisa que possa se beneficiar do conjunto de dados hospedado do 1000 Genomes, você poderá se inscrever para obter uma Bolsa da AWS.