發(fā)布日期:2018-03-21
本周,人工智能又開掛了。
距離我們上次報道張康教授的重磅AI研究還不到一個月,來自全球100多個實(shí)驗室的近150位科學(xué)家聯(lián)合在頂級期刊《自然》發(fā)文[1],他們開發(fā)了一個超級AI系統(tǒng),基于腫瘤組織DNA的甲基化數(shù)據(jù),可以準(zhǔn)確區(qū)分近100種不同的中樞神經(jīng)系統(tǒng)腫瘤。更厲害的是,這個AI系統(tǒng)還能發(fā)現(xiàn)一些指南里面沒有的新分類。這對于癌癥的精準(zhǔn)治療而言,又是個巨大的進(jìn)步。
這項研究一方面能夠彌補(bǔ)目前中樞神經(jīng)系統(tǒng)腫瘤難以診斷的問題,一方面也是為尚不完善的中樞神經(jīng)系統(tǒng)腫瘤分類做出了極大的貢獻(xiàn)。
在諸多癌癥中,中樞神經(jīng)系統(tǒng)腫瘤可以說是最難搞的。目前科學(xué)家已經(jīng)確定的中樞神經(jīng)系統(tǒng)腫瘤足有100來種[2],它們的臨床表現(xiàn)和生物學(xué)特性有高度特異性,很難確診。由于此類腫瘤的分子標(biāo)志物稀少,目前臨床上中樞神經(jīng)系統(tǒng)腫瘤的診斷核心技術(shù)還是基于顯微鏡的組織學(xué)診斷。
不過難點(diǎn)在于,很多在顯微鏡下表現(xiàn)相似的腫瘤,實(shí)際上有不同的基因變異特點(diǎn),這些幾乎是很難觀察到的,這就給精準(zhǔn)診斷帶來了極大的困難。雖然FDA已經(jīng)批準(zhǔn)了基于組織病理學(xué)切片成像輔助診斷疾病的技術(shù)[3],也有很多創(chuàng)業(yè)公司開始嘗試?yán)肁I分析這些病理圖片,輔助醫(yī)生診斷。然而上面存在的問題依然不能避免。
所以近年來WHO也逐漸在分類標(biāo)準(zhǔn)中增加了分子指標(biāo),例如幾種與特定腦癌亞型相關(guān)的基因變異和甲基化情況。
Andreas von Deimling和Stefan M. Pfister領(lǐng)導(dǎo)的這個國際團(tuán)隊認(rèn)為,分析癌癥的甲基化組是個很聰明的做法,甲基化特征一方面能夠標(biāo)志相應(yīng)的細(xì)胞變化,一方面還能夠用于追蹤細(xì)胞來源,例如用來診斷那些病灶不明的癌癥[4]。而且前人的實(shí)驗也證實(shí)了癌癥甲基化數(shù)據(jù)的可靠性,即使在很小的樣本中也能夠得到重復(fù)[5]?,F(xiàn)在研究者們要做的就是,在這些零散的數(shù)據(jù)基礎(chǔ)上繼續(xù)擴(kuò)大,讓癌癥甲基化組能夠成為一個統(tǒng)一標(biāo)準(zhǔn)的、全方位的診斷和分類工具。
不過這里面有個大問題就是,甲基化數(shù)據(jù)從哪里來。開發(fā)AI系統(tǒng)是需要大量的數(shù)據(jù)訓(xùn)練算法的,但是限于之前技術(shù)不足和高昂的成本,針對某種特定腫瘤的甲基化數(shù)據(jù)顯然是嚴(yán)重不足的,更何況這還是個發(fā)病率不是特別高的中樞神經(jīng)系統(tǒng)腫瘤。
感謝技術(shù)的進(jìn)步?,F(xiàn)在科學(xué)家已經(jīng)可以很容易的從經(jīng)福爾馬林固定后石蠟包埋的少量組織(FFPE)中提取DNA,這就解決了實(shí)驗材料的來源問題。盡管沒有足夠的腫瘤DNA甲基化數(shù)據(jù),但是在全世界的很多實(shí)驗室和醫(yī)療機(jī)構(gòu)中,都保存有FFPE樣本。
于是,這個龐大的研究團(tuán)隊開始收集FFPE樣本,并用Illumina公司的主流甲基化芯片450K(可分析人體45萬個甲基化位點(diǎn))分析近3000份腫瘤樣本的甲基化數(shù)據(jù),幾乎覆蓋了目前WHO分類中全部的中樞神經(jīng)系統(tǒng)腫瘤種類。此外,為了區(qū)分中樞神經(jīng)系統(tǒng)腫瘤與其他腫瘤和正常腦組織之間的差異,研究團(tuán)隊還分析了部分間充質(zhì)腫瘤、黑色素瘤、彌漫性大B細(xì)胞淋巴瘤、漿細(xì)胞瘤以及6種垂體腺瘤,以及健康腦組織的DNA甲基化情況。
決策過程
研究人員把每個樣本的幾十萬個甲基化信息一股腦交給計算機(jī),首先根據(jù)WHO的分類以及樣本的診斷結(jié)果,在有監(jiān)督的機(jī)器學(xué)習(xí)算法下,分析WHO定義的每類腫瘤的甲基化特征;然后又無監(jiān)督的機(jī)器學(xué)習(xí)算法再分析一遍,讓AI系統(tǒng)總結(jié)出自己對中樞神經(jīng)系統(tǒng)腫瘤甲基化的認(rèn)知。
最后,他們得到了82個中樞神經(jīng)系統(tǒng)腫瘤甲基化特征,以及9個對照樣本的甲基化特征。這91個甲基化特征就是AI系統(tǒng)在WHO定義的指導(dǎo)下,對中樞神經(jīng)系統(tǒng)腫瘤甲的分類。顯然,AI系統(tǒng)對中樞神經(jīng)系統(tǒng)腫瘤的分類,肯定不可能完全與WHO的分類完全重合。
研究人員把這82個甲基化特征分成了5類。
第一類的29個是完全與WHO的分類匹配的,就是說,AI系統(tǒng)認(rèn)為這些甲基化特征分別屬于某一類腫瘤,按照WHO的分類標(biāo)準(zhǔn),醫(yī)生之前的診斷確實(shí)也是屬于這個分類。第二類也有29個,他們能與WHO分類中的某種腫瘤下面的亞類型匹配。
剩下的就是只能部分匹配,或者完全不能匹配。而這些也是研究人員最感興趣的,他們認(rèn)為,這一發(fā)現(xiàn)可以幫助研究人員更深入的理解中樞神經(jīng)系統(tǒng)腫瘤。
a,91個甲基化特征,以及它們所屬的5個類別;b,2801個樣本的甲基化特征降維數(shù)據(jù)圖
到此,中樞神經(jīng)系統(tǒng)腫瘤的甲基化特征已經(jīng)被AI系統(tǒng)提取,加上對照組,一共有91個。顯然,如果研究就到此為止的話,使用價值還是有限的。畢竟,人工分析每個樣本的甲基化類型與這91個匹配情況是件非常費(fèi)時費(fèi)力的事情。
于是,他們把這91個甲基化類型交給了隨機(jī)森林機(jī)器學(xué)習(xí)算法,開發(fā)出一個AI決策系統(tǒng),只要研究人員將從測序機(jī)器上下來的甲基化數(shù)據(jù)導(dǎo)入這個AI系統(tǒng),就可以快速判斷這個腫瘤屬于哪一種。
為了驗證這些甲基化特征和AI決策系統(tǒng)的準(zhǔn)確性。研究者選取了1104份已經(jīng)組織學(xué)和分子生物學(xué)診斷的中樞神經(jīng)系統(tǒng)腫瘤患者組織樣本,同時用傳統(tǒng)的標(biāo)準(zhǔn)組織病理學(xué)分析和這個AI系統(tǒng)進(jìn)行診斷。
結(jié)果,在60.4%的樣本上,AI系統(tǒng)和病理學(xué)家診斷是一致的。15.5%的樣本AI系統(tǒng)和病理學(xué)家的也是一致的,只不過AI系統(tǒng)認(rèn)為,它們應(yīng)該屬于一個更小的亞型。
還有12.6%的病例,AI系統(tǒng)和病理學(xué)家診斷的結(jié)果不一致。那到底是AI系統(tǒng)對,還是病理學(xué)家對?于是研究人員對這部分樣本做了更加深入的分析(例如基因測序),最后驚喜的發(fā)現(xiàn),92.8%的樣本是AI系統(tǒng)對了。
最后剩余的11.5%的樣本,AI系統(tǒng)表示無能為力,不知道該如何分類,仔細(xì)分析發(fā)現(xiàn),其中三分之一是罕見腫瘤,可能是前期的樣本量不夠,導(dǎo)致AI系統(tǒng)無法識別。因此,這部分隨著數(shù)據(jù)的積累,或許可以解決。
AI系統(tǒng)對病例的識別情況
目前該AI平臺已經(jīng)免費(fèi)向研究機(jī)構(gòu)開放[6],自2016年上線以來,已經(jīng)有近萬份個體DNA甲基化數(shù)據(jù)上傳!實(shí)用性已經(jīng)得到千余例真實(shí)病例的支持。
當(dāng)然,研究者也提出,甲基化特征還不能作為單一的診斷標(biāo)準(zhǔn),還需要臨床的驗證。不過作為研究的工具,它著實(shí)將使中樞神經(jīng)系統(tǒng)腫瘤科研前進(jìn)一大步。
一方面,統(tǒng)一的、易于使用的標(biāo)準(zhǔn)將使科研變得更加條理分明;另一方面,甲基化組明確的數(shù)據(jù)特征也便于使用計算機(jī)進(jìn)行分析。有了這項技術(shù),我們對腫瘤的分類將會更具動態(tài)并逐漸走向完善,最終帶來更加精準(zhǔn)、有針對性的治療方案。
參考資料:
[1]. David Capper, David T. W. Jones, Martin Sill, et al. DNA methylation-based classification of central nervous system tumours. Nature, 2018.
[2]. Louis D N, Perry A, Reifenberger G, et al. The 2016 World Health Organization classification of tumors of the central nervous system: a summary[J]. Acta neuropathologica, 2016, 131(6): 803-820.
[3]. https://www.fda.gov/newsevents/newsroom/pressannouncements/ucm552742.htm
[4]. Moran, S. et al. Epigenetic profling to classify cancer of unknown primary: a multicentre, retrospective analysis. Lancet Oncol. 17, 1386–1395(2016)。
[5]Hovestadt, V. et al. Robust molecular subgrouping and copy-number profling of medulloblastoma from small amounts of archival tumour material using high-density DNA methylation arrays. Acta Neuropathol. 125, 913–916(2013)。
[6] https://www.molecularneuropathology.org
來源:奇點(diǎn)網(wǎng)