奕真生物收購 Curoverse ,利用 AI 技術輔助基因測序業務

大陸資訊 08月11日

整理 | 項文虎 劉燕 來源 | Wired 基因攜帶著個人的先天信息。如果一個人的基因測序被存儲在電腦上,大約佔據 150GB 的存儲空間。當進行基因檢測的人…

基因攜帶著個人的先天信息。如果一個人的基因測序被存儲在電腦上,大約佔據 150GB 的存儲空間。當進行基因檢測的人數大幅增加后,數據的存儲將成為一個巨大挑戰。此外,要想從這些基因組中挖掘有用的信息,還要將它們進行交叉對比,同時與醫療記錄、數百萬份遺傳學論文進行比較。

奕真生物收購 Curoverse 利用 AI 技術輔助基因測序業務

這正是人工智慧技術擅長處理的場景。8 月 3 日,基因測序公司 Veritas Genetics (下稱奕真生物)收購 Curoverse。總部位於波士頓、2010 年成立的 Curoverse,通過向免費的生物信息數據管理開源平台 Arvados 用戶提供技術支持服務,幫助科學家分析生物醫學數據,解決科學研究中的大量數據處理運算、分析及儲存的問題,從而縮短醫藥研發的周期。奕真生物認為, 人工智慧技術可以幫助揭示特定疾病在基因層面的風險,同時協助處理大量增長的遺傳學、醫療和科研的數據。此外,奕真生物還希望利用自然語言處理和深度學習等功能,幫助客戶根據需要查詢他們的基因數據。

更廣泛地說,基因組學和人工智慧是相互呼喚的。作為一種原始的數據格式,一個人的基因組大約為 15 GB。存儲一個鹼基對大約只需要兩個比特,而每對染色體中大約有 30 億對鹼基對,其大小為 750 MB,而人有 23 對染色體,所以數量上大約為 150 GB。但是基因測序並不完美。Veritas Genetics 的聯合創始人兼 CEO Mirza Cifric 表示,其公司將對每個基因組進行至少 30 次的識別,以確保他們的研究結果具有統計學意義。Cifric Mirza 還表示:「你必須保留所有的數據,以便時常回顧。」

基因測序領域需要新的計算方式

「看,我是一名計算機科學家,我喜歡人工智慧和機器學習,但是目前沒有多少編碼能解決這一問題,」加州大學舊金山分校計算健康科學研究所主任 Atul Butte 說。他之前在斯坦福大學工作時,嘗試在基因研究中利用人工智慧技術挖掘數據。不過,最終他發現,直接雇傭人員閱讀論文,把信息錄入資料庫的成本要小得多。

不可否認的是,隨著基因測序數據量的快速增長,這一領域將越來越需要高效獲取積累數據以及進行雲端分析的計算模式。比如,大多數疾病都是由多個基因共同作用導致,其中存在大量基因的變數表達,因此基於基因數據的疾病分析、預測與解讀,需要對比變數因素。

23 and Me 和 Color Genomics 已經可以提供基於單一變異疾病的基因風險監測,但奕真生物想要比它們走得更遠。目前,美國一些最大的危險來自於糖尿病和心臟病等疾病。這些疾病由多種基因之間的相互作用引發,同時與飲食習慣、鍛煉情況等外部因素有關。Mirza Cifric 相信,在人工智慧技術的幫助下,奕真生物不僅能夠發現誘發疾病的各個因素,同時能夠提供每個因素對整體風險的影響的統計數值。

Atul Butte 對此有很大的預期。但是,用遺傳數據做預測診斷仍有各種各樣的問題。Atul Butte 提到了 2013 年一項利用多基因測試來預測心臟病的研究,該研究使用了一項針對健康數據和心臟病的「弗雷明漢心臟研究」數據。「他們的作者表明,根據多基因風險評分、血液水平、血脂水平和家族病史,如果有人患心臟病,你可以在 10 年內預測,」Atul Butte 說,「但醫生也可以在不使用基因組的情況下做同樣的事情。」

Atul Butte 說,當我們將各種不同的基因研究、環境風險以及其他因素組合一起,試圖預測未來時,總是會有無法預期的混亂因素摻雜進來。「將基因報告結構化是一個長期以來的聖杯。」Atul Butte 補充道,「即使試圖讓研究人員以一種標準的、機器可讀的方式來編寫和報告數據,也沒有實現。例如,研究人員在定義自閉症與其他病症的不同時,總會遇到新的問題。」

除了疾病分析與預測,醫生與科研機構還能通過人工智慧更充分並高效地運用數據量巨大的醫學文獻。據報道,IBM Watson 能夠在 10 分鐘內閱讀並剖析 20,000,000 份醫學文獻、論文和病理報告,而一名研究人員一年卻只能夠閱讀 200-300 份醫學文獻。通過海量的數據積累、對比和分析,Watson 還能在眾多醫學領域協助醫生為病人提供個性化的專業治療建議。

2017 年 7 月 11日,美國神經學會官方雜誌 Neurology03 Genetics發布了一項研究結果,紐約基因組中心 ( NYGC ) 的研究人員、洛克菲勒大學( Rockefeller University )、其他 NYGC 成員機構及IBM 公司聯合宣布, IBM Watson for Genomics ( IBM Watson 基因解決方案)能夠分析通過全基因組 DNA 測序獲得複雜基因組數據。研究期間,IBM Watson能夠在 10 分鐘內提供有臨床可行性的報告。相比之下,通過人工分析和處理獲得類似結果則需 160 個小時。

如果基因組直接面向用戶是怎樣的情況?Mirza Cifric 希望這次合併能夠改善使用遺傳數據的消費者體驗,甚至可以將其整合到日常生活中。例如,將基因組和健康記錄與數字助理聯繫起來,這樣根據用戶的膽固醇的遺傳風險和最新的血液檢測結果,Alexa 就可以提示你是否應該再吃一塊披薩。當然,基因檢測對日常生活的提升並不限於飲食。有些人對非處方葯的用量不是很敏感,有了基因檢測后,一個快速的查詢就可以知道是否應該多吃一片泰諾。

源起個人基因組計劃

除了清晰可見的市場需求,由於哈佛醫學院基因組研究中心主任喬治・丘奇( George Church ),兩家公司在此之前已有淵源。

七年前,丘奇開始一項名為「個人基因組計劃」的項目,目標是對 10 萬名人類基因組進行測序,並將其健康信息進行關聯對比。奕真生物創始人曾參與了這個項目的測序工作,並以產前檢測服務為起點,於 2015 年推出了 1000 美元的全基因組產品。

而 Curoverse 的系統最初是為哈佛個人基因組計劃開發,媒體稱,歐美和亞洲等地的主要基因組測序中心均採用 Curoverse 的服務,對大量數據進行分析處理、管理以及相關數據(如 RNA ,微生物組和成像)的分析。

這還只是存儲問題。「此外,測序還將面臨特定領域的眾多問題,例如某個鹼基對的變異、替換、缺失或者增添等問題。」Mirza Cifric 說道。現在聽起來簡單,但科學家分析的基因組數量是以數百萬計的。正是憑藉對這些基因變異的分析,科學家們製造了新的藥物,並計算出藥物對不同人群的療效。

目前,Curoverse 在存儲和分類基因組數據的工作之外,還準備在 600 多萬篇冗長的學術論文中,搜索詳細描述基因行為的圖表、圖像及註釋等圖像信息。這是一項宏偉的計劃,因為自然語言處理仍然是目前 AI 領域棘手的問題。

Mirza Cifric 認為,這次收購將有助於奕真生物成為基因數據的巨頭。「蘋果最近宣布,他們已經在一個季度里出貨 4100 萬台 iphone 。我認為在不久的將來,我們會在一個季度完成 4100 萬個基因組檢測。」他說。但考慮到這項服務將近 1000 美元的收費標準,大規模的推廣顯得有些困難。不過,檢測的成本註定會降下來,同時 AI 的應用也將讓為基因測序付費成為常態。

2016 年 7 月,奕真生物還在中國成立了辦事處。同年 10 月,奕真生物宣布完成共計 2 億人民幣的 B 輪融資,投資方包括禮來亞洲基金 ( LillyAsia Ventures ) 、摯信資本 ( Trustbridge Partners ) 和先聲葯業。至此,包括 2015 年 A 輪融資在內,累計獲得融資總額 3 億元人民幣。

中國同樣是基因測序領域的熱土。成立於2013年的醫渡雲則集中做臨床數據挖掘;2014年10月成立的奇雲諾德,構建了一站式生物信息大數據平台,包括基因數據發動機、大數據挖掘軟體、數據可視化工具以及訂製化流程;同樣是在2014年成立的聚道科技( GeneDock )提供基因大數據云計算服務平台,今年 3 月 6 日發布基於雲計算的人全基因組標準化分析服務――GeneDock HG,可以實現在約 5 小時內完成一個樣本的標準分析,支持約 100 個樣本數據的并行處理;2015 年,葯明康德旗下明碼生物科技為英國國家基因組計劃提供罕見病及癌症臨床數據解析服務,明碼生物科技已經可以實現從測序到數據存儲,再到數據解析一站式的服務。(原文經過編輯刪減與修改)

聲明:本文由機器之能(微信公眾號:almosthuman2017)出品,轉載請查看要求,機器之能對於違規侵權者保有法律追訴權。

文章來源: https://www.xcnnews.com/kj/235218.html

my

謝老師Q

謝邦昌主任

醫管系生技EMBA大數據所生統中心