治愈癌癥的良方是數(shù)據(jù),海量的數(shù)據(jù)
如果我們把人類生物學的復雜性比作一部動畫電影,那么在一百年前,我們對這種復雜性的了解大約相當于電影畫面的一個像素。隨著我們看到的像素越來越多,我們就會逐漸看出其中的模式和主題,這是了解整個故事的開端?! ?/p>

幾年前,埃里克·夏特(Eric Schadt)認識了一位患上癌癥的女士。
那是一種具有侵襲性的結腸癌,發(fā)病很快,并且轉移到了肝臟。
這位女士來自密西西比州,是一位軍人遺孀,年紀輕輕的她要獨自撫養(yǎng)兩個女兒。丈夫的撫恤金只夠她享受最基本的醫(yī)療保障——到軍方醫(yī)院就醫(yī),那里的腫瘤科醫(yī)生早就不堪重負,醫(yī)療條件也只能用簡陋來形容。身患四期癌癥走進這樣的醫(yī)院,那就像回退到世界尚未繪制出人類基因組圖譜的時代:
在那個時代,人們?nèi)匀灰詾椤敖Y腸癌”只有單一的病因,而不知道會有無數(shù)種病因,造成各種獨特的變異;在那個時代,治療這種癌癥使用的是同一種藥,不管你是來自何處。
那是一個沒有大數(shù)據(jù)和機器學習,也沒有希望的時代。
當時,夏特剛剛在西奈山醫(yī)院(Mount Sinai Hospital)組建了伊坎基因組學和多尺度生物學研究所(Icahn Institute for Genomics and Multiscale Biology)。
在聽說了密西西比州那位女士的情況之后,他只是簡單地說:“那正是我們要接收的患者類型?!?/p>
他這么說的意思是,對于這樣的患者,當前的醫(yī)療手段將無法起到作用,而未來的醫(yī)學——即使用超級計算機篩查海量基因數(shù)據(jù),尋找有可能啟發(fā)新治療手段和方法的模式——則無法及時到來。

埃里克·夏特(Eric Schadt)
夏特不是癌癥專家,他甚至不是醫(yī)生。
他是一位數(shù)學家,精通分子生物學和計算生物學,有生以來還沒有治療過什么病患。
通過自己在西奈山醫(yī)院開設的新實驗室,夏特可以圍繞這位女士的癌癥采集1TB相關數(shù)據(jù),是在傳統(tǒng)環(huán)境中的數(shù)千倍,目標是找到對抗癌癥的新方法。然而那位女士到最后還是離開了人世,給這位從未給人治過病的科學家留下了難以言喻的苦澀。
坐在西奈山醫(yī)院的辦公桌旁接受采訪時,夏特顯得率直和不設防。今年51歲的他不管到哪兒都喜歡穿短袖POLO衫和短褲。對任何醫(yī)學研究人員來說,在發(fā)表論文或研發(fā)藥物時,在遠離人為影響的情況下,保持樂觀是相對容易的。然而,親身體會自己工作所產(chǎn)生的影響,并且親眼目睹某個人在自己面前慢慢死去?!澳鞘俏乙郧皬奈唇?jīng)歷過的更深層次的心靈震撼,”夏特說道。
“我們正處在一種越來越快的增長曲線之上,你會自然而然地展望未來,你會想:我們會把這個問題搞清楚的,”他說,“最終,我們將會知道所有的細胞都在做什么,所有的亂子都是怎么回事。這當中讓人深覺無力的部分是,隨著我們不斷長進,我們也會不斷遭到打擊,那就是在這個過程中顯現(xiàn)的日益加劇的復雜性?!?/p>
十多年來,我們一直在談論基因測序和個性化醫(yī)療的潛力,談論計算機處理能力的進步加上對個體基因組更進一步的了解如何能夠讓我們邁入奇跡時代的門檻。這種理論認為,有了足夠多的數(shù)據(jù)之后,沒有什么疾病是無法治療的。但正如夏特了解到的,數(shù)據(jù)下沉到個體DNA的層面仍然不夠。要在人群中檢測出疾病的模式,應用機器學習技術,找出導致疾病的各種基因突變,以及采取相應對策,那將需要海量的數(shù)據(jù),達到艾字節(jié)(EB,即百億億字節(jié))的級別。這些數(shù)據(jù)集的規(guī)模越大,科學家的模型和預測就會變得越精確和越強大。
我們必須說服那些收集個人數(shù)據(jù)的醫(yī)療中心和基因技術公司,讓他們不要為了自己謀利把數(shù)據(jù)囤積起來。
問題就在于,我們?nèi)绾尾拍塬@得這些艾字節(jié)級別的基因數(shù)據(jù)?! ?/p>

事實證明,你不可能直接向成百萬上千萬的人索要他們的健康數(shù)據(jù)。
你必須首先說服他們相信,你只會利用這些數(shù)據(jù)做好事,而且不會讓它落入壞人之手。
然后,你必須說服那些收集個人數(shù)據(jù)的醫(yī)療中心和基因技術公司,讓他們不要為了自己謀利把數(shù)據(jù)囤積起來,而是應該進行共享,從而讓整個科研社區(qū)能夠實現(xiàn)規(guī)模效應——即可用的數(shù)據(jù)突破了臨界量,個體數(shù)據(jù)集終于達到數(shù)百萬的量級。
夏特跟很多其他人認為,要理解疾病的成因,并設計出新的治療手段和方法,那是必不可少的。目前,那種體量的數(shù)據(jù)仍然是不可得的。眼下還沒有人能建立起那種體量的數(shù)據(jù)集。
不過,從科技巨頭到生物醫(yī)藥初創(chuàng)公司,形形色色的公司都在競先解決數(shù)據(jù)規(guī)模問題。夏特希望參與其中。
如果我們把人類生物學的復雜性比作一部動畫電影,那么在一百年前,我們對這種復雜性的了解大約相當于電影畫面的一個像素。如果只有單個像素,你是無法知道電影講了什么故事的。但隨著我們看到的像素越來越多——成百上千個,或者說是電影像素總量的1%——我們就會逐漸看出其中的模式和主題,這是了解整個故事的開端。
正是這種想法促使夏特在2011年組建了伊坎研究所。
在那之前,他曾在默克公司(Merck)做過十年的藥物研發(fā)工作。(曾經(jīng)有一段時間,默克公司用于治療心臟病、糖尿病和肥胖等疾病的代謝性疾病藥物有一半源自于夏特的研究成果。)
面對著基于疾病和藥物研發(fā)單基因模型做出的、被人們廣泛接受的假設,夏特開始相信,基因突變不是獨自發(fā)揮作用的,而是形成一個龐大的網(wǎng)絡,讓疾病能夠突破我們的自然防御能力。
只有通過深入的生物信息學探究,我們才有可能理解這些網(wǎng)絡的作用機制。
為了探索自己的復雜性模型,夏特帶著金融家兼慈善家卡爾·伊坎(Carl Icahn)提供的1.5億美元來到西奈山醫(yī)院,在那里的地下室里建造了一臺名為“密涅瓦”(Minerva)的超級計算機,對醫(yī)院每年收集的數(shù)千份基因組數(shù)據(jù)進行分析?! ?/p>

超級計算機“密涅瓦”
他聘請了其他金融工程師,其中包括為Facebook組建首支數(shù)據(jù)團隊的杰弗里·哈梅巴赫(Jeffrey Hammerbacher)。按照西奈山伊坎醫(yī)學院一位知名腫瘤學家的話說:“突然之間,周圍都是這些數(shù)學極客跑來跑去,他們看起來像是那種開發(fā)電子游戲的程序員。”
“我們需要100家西奈山醫(yī)院來達到所需的規(guī)模,那樣才能在患者數(shù)據(jù)中識別出能夠指導我們進行診斷和治療的模式?!?/p>
沒過多久,夏特就意識到,他將需要“一艘更大的船”。
2014年,伊坎研究所跟非營利性生物醫(yī)學研究機構Sage Bionetworks聯(lián)合啟動了一個項目,試圖治愈罕見兒童疾病,比如囊性纖維化、鐮狀細胞貧血癥以及泰-歇克斯癥,總計有170種。
他們將這個項目命名為“韌性項目”(Resilience Project),研究人員致力于尋找人群中攜帶了致病基因但不知何故沒有發(fā)病的個體。
在尋找這些“韌性個體”的過程中,夏特及其團隊積累了60萬人的基因數(shù)據(jù)池。
在當時,這是規(guī)模最大的基因研究,其收集的數(shù)據(jù)擁有十多個來源,其中最重要的包括23andMe、北京基因組研究所,以及麻省理工與哈佛大學聯(lián)合創(chuàng)辦的博德研究所(Broad Institute)。
但是,在搜索60萬份基因組數(shù)據(jù)時,研究人員發(fā)現(xiàn),在自己著手解決的170種疾病中,只有8種有潛在的韌性個體。
事實證明,這項研究的規(guī)模還是太小了。
通過計算致病突變在人群中發(fā)生的頻率,夏特及其團隊開始相信,他們需要的有用被試者數(shù)量不是60萬,而是要達到千萬級別。
盡管“韌性項目”背后擁有強大的計算能力支持,而且看似收集到了規(guī)模龐大的數(shù)據(jù),但要破解“韌性”背后的基因密碼,夏特手中掌握的數(shù)據(jù)在數(shù)量和質量上仍然達不到需求。
“我們需要100家西奈山醫(yī)院來達到所需的規(guī)模,那樣才能在患者數(shù)據(jù)中識別出能夠指導我們進行診斷和治療的模式,”夏特說,“在我任職的五年中,我意識到,這種事情不可能在醫(yī)療中心的圈子內(nèi)部變成現(xiàn)實。它們彼此之間有太多隔閡,相互競爭,沒有像其他幾乎所有行業(yè)那樣形成一種能夠推動醫(yī)療行業(yè)進步的連貫框架?!庇捎诖笮歪t(yī)療中心基本上壟斷了自家患者的數(shù)據(jù),而且沒什么經(jīng)濟誘因促使它們在關鍵研究領域展開相互合作,夏特表示,“顛覆創(chuàng)新將出現(xiàn)于現(xiàn)有醫(yī)療機構之外。”
出于這個原因,夏特創(chuàng)立了自己的基因數(shù)據(jù)公司Sema4。
這家公司將專注于收購和擴展那些專門從事基因檢測(比如致癌基因攜帶者篩查和無創(chuàng)性產(chǎn)前檢測)的公司,以此來收集和共享數(shù)以百萬計的個體數(shù)據(jù)集。
在Sema4的可搜索平臺上,醫(yī)生將能即時訪問海量的基因組數(shù)據(jù)以幫助診斷自己的患者。
制藥公司可以付費使用這套系統(tǒng),來尋找臨床試驗所需的患者人群。
至于科學家——他們目前掌握的分析工具因為更加強大的計算能力和機器學習算法而得以增強——他們將終于能夠獲得足夠多的基因數(shù)據(jù)來推動自己雄心勃勃的研究。
盡管一些科技巨頭正在進軍生命科學領域,美國國立衛(wèi)生研究院(NIH)也在征求100萬志愿者來創(chuàng)建自己的大型生物數(shù)據(jù)庫,但夏特認為,最用心于實現(xiàn)基因數(shù)據(jù)理想規(guī)模的是Sema4及其同類初創(chuàng)公司——主要代表包括克雷格·文特爾(Craig Venter)的Human Longevity以及黃馨祥(Patrick Soon-Shiong)的Nant-Health。
雖然這些公司會在收集大量高質量生物數(shù)據(jù)方面展開競爭,但Sema4將脫穎而出,該公司的辦法是向世界各地的學術性醫(yī)療中心和非營利機構研究人員免費開放自己的基因數(shù)據(jù)庫。
夏特表示,如果競爭對手需要獲得Sema4數(shù)據(jù)庫中一個子集的信息,那么他們將可以付費訪問Sema4的搜索平臺?;蛘?,Sema4和其他公司可以聯(lián)手為“韌性項目”這樣雄心勃勃的努力(只不過規(guī)模更大)創(chuàng)建大型的數(shù)據(jù)集。
通過收購和擴展全美各地現(xiàn)有的基因檢測公司——它們目前各自為政,但在Sema4的旗幟下將組合創(chuàng)建出一個巨大的基因數(shù)據(jù)網(wǎng)絡,并實現(xiàn)統(tǒng)一的安全和許可標準——Sema4將能實現(xiàn)上述增長。
夏特承認,要求一個人把自己的生物數(shù)據(jù)交給一家匿名公司,那不是什么簡單的事情。盡管公共部門和私人部門已經(jīng)投入數(shù)十億美元的資金用于對現(xiàn)有數(shù)據(jù)網(wǎng)絡進行現(xiàn)代化改造和提供安全保障,但數(shù)據(jù)泄露事件仍然時有發(fā)生。
在Sema4,患者將被詳盡地告知,他們的數(shù)據(jù)將如何被加密、接受匿名處理、擦除身份識別信息(除了加密密鑰以外)。即使發(fā)生了數(shù)據(jù)泄露事件,某個人身份被識別并暴露的機率也是極低的。
在建立了這樣的數(shù)字基礎設施之后,夏特設想了這樣一種未來:
越來越多的患者不僅愿意分享自己的基因數(shù)據(jù),還將分享通過血糖儀、血壓計和吸入器等追蹤設備收集的醫(yī)療和生活方式信息。最終的希望是,這些日益復雜但對患者越來越友好的測試將變得非常普及,以至于他們身體的微生物群會定期得到檢測、他們的RNA會經(jīng)常接受測序,他們的血液細胞會持續(xù)得到監(jiān)控以發(fā)現(xiàn)病變跡象。
像西奈山醫(yī)院這樣的醫(yī)療中心,它們目前對患者數(shù)據(jù)事實上的壟斷將被打破。研究人員將最終能夠訪問海量的基因數(shù)據(jù),它們正是未來醫(yī)療技術突破所必需的。
“如果數(shù)據(jù)變得更廣泛可得,并且可以利用整個世界的智力來完善疾病模型,那我們是否可以更好地造福人類呢?”夏特自問道,“絕對可以。”這是如數(shù)學一般精準的醫(yī)學,不是臆測。有朝一日,每一種疾病——甚至是四期癌癥——都可能被治愈。
大舉押注生物數(shù)據(jù)的四家科技巨頭:

Alphabet
Alphabet的Verily Life Sciences團隊在自己的Baseline研究項目中使用了機器學習技術,他們會把來自成千上萬健康志愿者的基因、臨床和醫(yī)學成像數(shù)據(jù)饋入機器,以期更好地理解是什么讓這些志愿者保持健康——這樣的知識有可能幫助人們從一開始就遠離疾病?! ?/p>

IBM
在上世紀70年代,世界衛(wèi)生組織(WHO)曾使用IBM制造的硬件來追捕天花病毒“余孽”。現(xiàn)在,IBM正在跟醫(yī)院合作,為曾在《Jeopardy!》智力競賽節(jié)目中贏得大獎的人工智能系統(tǒng)“沃森”提供健康數(shù)據(jù)。他們的目標是預測疾病、實現(xiàn)個性化醫(yī)療,甚至驅動虛擬醫(yī)療助理篩查醫(yī)療記錄和研究成果。

蘋果
利用蘋果的ResearchKit,科學家可以大規(guī)模招募臨床研究被試者,并通過他們的iPhone收集實時健康數(shù)據(jù)。去年春天,該公司新增了CareKit,它讓蘋果用戶可以跟自己的醫(yī)生直接分享健康數(shù)據(jù)。

微軟
微軟正在開發(fā)可以貼在皮膚上的微型傳感器,它們可以把生物特征數(shù)據(jù)傳輸?shù)竭h程健康監(jiān)控器(以及潛在的大規(guī)模數(shù)據(jù)聚合器)之上。此外,微軟最近還宣布了利用機器學習和生物數(shù)據(jù)“解決”癌癥的計劃。