Janssen Pharmaceuticals 利用 Amazon SageMaker 將機器學習準確度提高了 21%

2022 年

Janssen Pharmaceuticals (Janssen) 自 1961 年以來一直是 Johnson & Johnson 旗下的製藥集團,該集團利用機器學習 (ML) 來更好地了解正在接受 Janssen 療法之患者的體驗。為了自動化部署工作流程,並建立開發與生產環境之間更好的介面,Janssen 資料科學家使用了 Amazon Web Services (AWS)。透過使用 AWS 服務 (包括可用於建置、訓練和部署幾乎任何使用案例之 ML 模型的 Amazon SageMaker 在内),Janssen 落實了 ML 營運 (MLOps) 作業程序的自動化,使模型預測的準確度提高百分之 21、特徵工程的速度加快百分之 700 左右,Janssen 不僅得以降低成本,效率也提高了。

Challenging research. Determined experienced scientist working with her microscope and wearing a uniform
kr_quotemark

「我們可透過結合使用 AWS Glue 和 AWS Step Functions 來並行處理資料準備和特徵工程作業及其協調方式,而不是依照順序排列流程中的每個步驟。」  

Jenna Eun
Janssen Pharmaceuticals 的 Principal Data Scientist

在 MLOps 中尋找自動化以加快研究速度

Janssen 產品組合涵蓋了廣泛的治療領域,包括免疫學、傳染病、神經科學和腫瘤學。Janssen Principal Data Scientist Jenna Eun 表示,「在患者複雜的治療過程中提供最佳護理極其重要,因此我們利用人工智慧和機器學習來了解人們如何體驗治療,並透過他們的疾病旅程更好地滿足患者的需求。」

為了加速 ML 型解決方案對患者體驗的影響,Janssen 商業技術商業資料科學團隊決定專注於 MLOps,這是旨在可靠且高效地部署和維護生產中的 ML 模型、增加自動化及滿足商業和技術要求的一整套實務。Eun 表示,「我們對於 MLOps 的目標是要促進實驗和隨時間追蹤模型效能。」「輕鬆進行實驗和徹底探索超參數空間對我們來說極為重要,這有助於我們建立對機器學習模型的信心。」

Janssen 決定組建跨職能團隊來建立自動化的 MLOps 流程,因為將其技術需求與內部安全要求維持一致非常重要。Eun 表示,「因為我們建立的流程使用了醫療保健資料,我們必須嚴格遵循安全和隱私措施,以開發和實施我們的技術解決方案。」自 2020 年底起,Janssen 商業科技商業資料科學團隊與 Johnson & Johnson Technology CloudX 團隊,與 Amazon SageMaker 解決方案架構團隊,以及能協助公司在 AWS 上實現其期望業務成果的全球專家團隊 AWS Professional Services 共同合作。

提升 AWS 上機器學習的速度與準確性

透過與 Amazon SageMaker 解決方案架構團隊和 AWS Professional Services 團隊合作,Janssen Business Technology 商業資料科學團隊和 Johnson & Johnson Technology CloudX 團隊在短短 3 個月內就實現了資料準備和特徵工程模組的自動化。特徵工程是從患者資料中建立輸入變數以訓練監督式 ML 模型的流程。透過將這些步驟自動化,該團隊能將資料準備的速度提高約 600%,並將特徵工程的速度提高約 700%。Janssen 使用 AWS Step Functions 完成此任務,這是一種低程式碼視覺化工作流程服務,能簡化來源資料的收集、處理和規範化所需步驟順序。AWS Step Functions 在 AWS Glue 上協調作業,這是無伺服器的資料整合服務,具有輕鬆同步開發和生產環境以更快部署實驗和最佳化 ML 解決方案的功能。Eun 表示,「透過結合使用 AWS Glue 和 AWS Step Functions,我們可以並行化資料準備和特徵工程作業以及其協調方式,而不是按順序排列流程中的每個步驟。」「這讓我們能輕鬆地將開發環境和生產環境無縫連接起來,這樣無論我們在做什麼實驗,都可以快速轉換為由 AWS Step Functions 啟動的 AWS Glue 作業。」

在 AWS 上實施 MLOps 解決方案後,Janssen 的預測模型準確度提高了 21%。Eun 表示,「由於 Data Pipeline 更自動化且耗時更短,我們能花更多時間在提升模型效能上。」提高 ML 模型準確性不可或缺的是超參數最佳化。Janssen 團隊一確定模型和資料後,就會使用 Amazon SageMaker 自動調整模型,透過調整演算法參數的數千種組合來獲得模型所能產生的最準確預測。該自動化結合其貝葉斯最佳化演算法,大幅縮短了參數搜尋的時間。Eun 表示,「因為我們進行了徹底的超參數搜索,所以我們對結果的機器學習模型感到更有信心。」

Janssen 團隊和 Johnson & Johnson Technology CloudX 團隊能夠記錄此專案,並與從事類似 ML 專案的其他 Johnson & Johnson 團隊分享。分享學習有助於加速那些同樣需要遵守 Johnson & Johnson 安全政策的專案,並在整個組織中培養 MLOps 文化。Eun 表示,「透過建立可供他人效仿的模式,我們展示了如何在 Johnson & Johnson 環境中連接不同 AWS 服務來建立整個 ML 管道。」「能夠在我們之前的 ML 開發和部署過程中建立並提高效率,讓我們看到了我們能夠擁有的靈活性和可擴展性。」

改善全球患者的治療

Janssen 的 MLOps 解決方案讓以規模化方式交付資料科學解決方案成為可能。Eun 表示,「我們在現實世界中部署解決方案,並展示它如何能產生影響時,我們設想將其擴展到更大的地理區域並將其應用於 Johnson & Johnson 的其他商業用例。」


關於 Janssen Pharmaceuticals

Janssen Pharmaceuticals 成立於 1961 年,是 Johnson & Johnson 旗下研發機構,致力於改善六大治療領域嚴重疾病患者的治療效果,包括心血管健康、免疫學、神經科學和腫瘤學。

AWS 的優勢

  • 資料準備速度提升約 600%
  • 將特徵工程的速度提升約 700%
  • ML 模型的準確性提升了 21%
  • 為其他 Johnson & Johnson 團隊建立標準 MLOps 參考架構

使用的 AWS 服務

Amazon SageMaker

Amazon SageMaker 透過整合專門為機器學習 (ML) 建置的一組廣泛的功能,協助資料科學家和開發人員快速準備、建置、訓練和部署高品質的機器學習 (ML) 模型。

進一步了解 »

AWS Step Functions

AWS Step Functions 是一種低程式碼、視覺化的工作流程服務,開發人員可以使用它來建置分散式應用程式、自動化 IT 和業務程序,以及使用 AWS 服務建置資料和機器學習管道。

進一步了解 »

AWS Glue

AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,可讓客戶輕鬆準備資料,以及載入資料用於分析。

進一步了解 »

AWS Professional Services

AWS 專業服務組織是一個由專家組成的全球團隊,可協助您使用 AWS 雲端實現所需的業務成果。

進一步了解 »


開始使用

各行各業各種規模的組織每天都在使用 AWS 來變革其業務和履行其使命。聯絡我們的專家,立即開始您的專屬 AWS 雲端之旅。