1000 人ゲノムプロジェクトは人の遺伝的多様性(SNP、構造的変異、およびそれらのハプロタイプコンテキストを含む)の最も詳細なカタログを実現した国際研究協力の 1 つです。このプロジェクトの最終フェーズでは、世界中の 26 の異なる母集団から 2,500 人以上の遺伝子配列を決定し、それらの個人の 8,000 万以上の変異を用いて段階的ハプロタイプの統合化セットを生成しました。
アマゾンのミラーには、このプロジェクトの完全なデータセットが格納されています。データは、s3.amazonaws.com/1000genomes に置いてあります。
詳細については、http://www.1000genomes.org を参照してください。何かご質問がある場合は、[email protected] までメールにてお問い合わせください。
1000 人ゲノムプロジェクトのデータは、AWS で無料でコミュニティに公開されています。AWS のパブリックデータセットは、Amazon Simple Storage Service(Amazon S3)でホストされるパブリックデータの集中レポジトリを提供します。データには Amazon Elastic Compute Cloud(Amazon EC2)や Amazon Elastic MapReduce(Amazon EMR)などの AWS サービスからシームレスにアクセスできます。これらのサービスは、大規模データコレクションの活用に必要な高度にスケーラブルなコンピューティングリソースを組織に提供します。AWS はパブリックデータセットを無料で保存しています。研究者が支払う必要があるのは、データの詳細処理や分析に必要となる追加の AWS リソースの料金だけです。詳しくは、AWS のパブリックデータセットをご覧ください。
最新の 1000 人ゲノムプロジェクトのデータは、1000genomes Amazon S3 バケットで利用できます。
データへにアクセスするには、シンプル HTTP リクエストを実行するか、Ruby、Java、Python、.NET、PHP などの言語で AWS SDK を利用できます。
研究者は、Amazon EC2 ユーティリティコンピューティングサービスを使ってこのデータの分析を始めることができます。膨大なデータにかかる資本投資は必要ありません。また AWS は、再結合や再利用を目的とした研究チームによる研究公開を支援する、様々なオーケストレーションおよびオートメーションサービスも提供しています。
Amazon S3 のバケットでデータを利用できるので、お客様は Amazon Elastic MapReduce で Hadoop を使用して情報を迅速に処理し、CloudBurst や Crossbow など、増加する生物情報学ジョブフローの実行ツールを利用することができます。
米国国立医学図書館所属の NIH 全米バイオテクノロジー情報センター(NCBI):
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov(IPv6 アクセス用)
- 1000 Genomes : NCBI/NLM/NIH(Aspera 使用)
欧州バイオインフォマティクス研究所(EMBL-EBI)、Wellcome Trust による協力:
教員、研究者、学生は、AWS が提供するユーティリティコンピューティングプラットフォーム、ならびに 1000 人ゲノムプロジェクトデータなどのパブリックデータセットを活用するための無料クレジットを申請できます。ゲノム関連学会を開催する場合や、運用中の 1000 人ゲノムデータセットを活用する研究プロジェクトに従事する場合は、AWS 助成プログラムへの申請をご検討ください。