Ancestry 使用 Amazon EFS 加速基因體資料洞見
2020 年
Ancestry® 是家族史和消費者基因體學領域的全球領導者,利用家譜、歷史記錄和 DNA 來幫助人們進行個人探索之旅。Ancestry 在其消費者 DNA 網路中擁有超過 1,800 萬人。AncestryDNA® 使用先進的基因體科學,透過為成員提供更多方法來探索 DNA 匹配、連接到更精確的區域,並深入了解遺傳健康資訊和個人特徵,幫助他們發現有關家族史的新詳細資訊。
AncestryDNA 團隊包括數十名科學家,包括人口遺傳學家、運算生物學家、統計學家、流行病學家、基因體資料科學家和生物資訊學家,他們開發出演算法來分析遺傳學和其他代表數 TB 儲存空間的資料。該團隊之前在內部部署自行管理其擴展網路附接儲存裝置 (NAS) 叢集,但需要監控、佈建和進階規劃以預測未來的需求,才能快速擴展儲存和運算資源。AncestryDNA 基因體副總裁 Eurie Hong 博士說:「我們的資料不斷增長,我們的挑戰之一是如何隨著我們的基因網路的增長而擴展。我們希望擴展運算容量,以滿足用於分析平方增加的資料集大小。」
AncestryDNA 科學團隊也需要更大的彈性來支援無法預測的工作負載。Ancestry 生物資訊學經理 Asher Baltzell 博士說:「我們的工作流程有可能非常尖峰,而且當我們無法預測當年需要多少磁碟和運算時,很難分配預算。」
使用 Amazon EFS,我們不必擔心擴展研究工作負載:無論運算和儲存要求如何,系統都可以自動增長以滿足我們研究人員的需求。
Eurie Hong博士
AncestryDNA 基因體副總裁
將基因體研究工作負載移至 AWS
AncestryDNA 科學團隊決定遷移至 Amazon Web Services (AWS)。Baltzell 表示:「我們的公司整體已經開始遷移至 AWS,而且我們對雲端的可擴展性和靈活性很感興趣。」
該團隊使用 Amazon Elastic Compute Cloud (Amazon EC2) 進行隨需運算,並使用 Amazon Elastic File System (Amazon EFS) (可擴展、全受管的彈性網路檔案系統 (NFS)) 做為共享資料檔案系統。Hong 說:「科學家通常使用傳統的檔案伺服器,所以我們知道我們想要的東西與我們的研究人員之前使用過的類似。使用 Amazon EFS,我們不必擔心實作或持續管理問題,因為 Amazon EFS 提供了可擴展性和彈性來解決我們不斷變更的工作負載。」 AncestryDNA 也依賴於 Amazon Simple Storage Service (Amazon S3)。
AncestryDNA 科學團隊能夠提前完成遷移,而沒有影響專案時間表或中斷資料科學團隊的生產力。
輕鬆擴展以符合科學家的運算與儲存需求
Ancestry 現在可以執行與其 Ancestry 人類多樣性專案一致的研究,而不必擔心資料儲存限制。Hong 表示:「使用 Amazon EFS,我們不必擔心擴展研究工作負載:無論運算和儲存要求為何,系統都可以自動增長以滿足我們研究人員的需求。」
此外,由於 Amazon EFS 是全受管雲端檔案系統,因此 AncestryDNA 可避免建立和管理自己的 NFS 伺服器的需求。Hong 說:「我們不想花時間和金錢來建立和管理自己的檔案系統,我們希望專注於研究。我們可以使用 Amazon EFS 來做到這一點。」
獲得彈性以支援工作負載峰值並最佳化成本
當必須管理工作負載可能會發生不可預測的增加或減少,而 Ancestry 現在具有能夠加以管理的彈性。Baltzell 表示:「使用 Amazon EFS 獲得的彈性和靈活性對我們來說非常重要。」此外,使用了 Amazon EC2,團隊可以最佳化成本。「研究人員可以一次使用更多資源,而無需為閒置資源付費。我們可以在需要 100 台伺服器的時間運行它們,而不用一直運行 10 台服務器。這也使我們更容易預測和管理成本。」
更快地布設新科學家
Amazon EFS 提供與 Ancestry 先前內部部署系統一致的環境,讓資料科學家可以使用共享專案和個人資料夾,這些都可從 Jupyter 和 RStudio 資料科學分析筆記本掛載,以便輕鬆管理任務。此外,布設新科學家很容易,因為他們正在使用的雲端環境使用相同的方法來存取和儲存他們習慣的資料。由於科學家擁有熟悉的檔案系統,因此他們可以使用可能會協助他們加快創新步伐的相鄰 AWS 服務,而不必花時間學習如何進行運算和分析。該團隊的科學家還使用 Amazon EMR 來支援依賴 Hadoop 大數據架構的研究。
AncestryDNA 科學家現在可以更專注於創新。Hong 表示:「使用 AWS,我們可以將更多時間用於尋找新方法,來協助客戶發現他們獨特的家族史。我們將繼續嘗試尋找方法來幫助我們的客戶更了解他們的家庭,並了解他們的遺傳學如何為他們未來的健康提供資訊。」
Ancestry 簡介
Ancestry 是家族史和消費者基因體的領先供應商。在其不斷增長的 DNA 網路中收集了超過 270 億筆記錄和超過 1,800 萬個人,Ancestry 幫助客戶發現他們的家庭故事,並獲得有關其健康和保健的可行洞見。30 多年來,已有數百萬人選擇 Ancestry 作為發現、保存和共享有關自己及其家人的最重要資訊的平台。
AWS 的優勢
- 使多位科學家能夠進行基因體研究
- 自動擴展或縮減運算和儲存資源
- 更快和更輕鬆地配置新科學家
使用的 AWS 服務
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 提供簡單、可擴展、全受管的彈性 NFS 檔案儲存,可與 AWS 雲端服務和內部部署資源搭配使用。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 物件儲存服務提供領先業界的可擴展性、資料可用性、安全性及效能。
Amazon Elastic Compute Cloud
Amazon Elastic Compute Cloud (Amazon EC2) 是一種 Web 服務,可在雲端提供安全、可調整大小的運算容量。
Amazon EMR
輕鬆地執行和擴展 Apache Spark、Hive、Presto 和其他大數據架構
入門
各行各業、各種規模的公司每天都在使用 AWS 來轉型業務。聯絡我們的專家,立即開始 AWS 雲端之旅。