發(fā)布日期:2016-07-25
全雪萍:Vishuo首席技術(shù)官、英國(guó)帝國(guó)理工大學(xué)資深生物信息學(xué)家、愛(ài)丁堡大學(xué)信息學(xué)院博士后研究員
從微生物學(xué)專業(yè)到生物信息領(lǐng)域
生命是數(shù)字的,由遺傳物質(zhì)DNA上四個(gè)脫氧核糖核苷酸編碼。形象一些表述,就像我們每天都在使用的電腦,電腦是數(shù)字的,最低層是由1和0這兩個(gè)數(shù)字編碼實(shí)現(xiàn)。解碼遺傳物質(zhì)DNA上攜帶的信息,是一個(gè)長(zhǎng)而曲折的科研奧德賽之旅。
我在南開大學(xué)攻讀微生物學(xué)時(shí),人類基因組計(jì)劃已經(jīng)啟動(dòng),一代測(cè)序技術(shù)的低通量、低效率和高昂的價(jià)格,使得這一耗時(shí)長(zhǎng)達(dá)十余年的項(xiàng)目看上去有些高不可攀,也限制了它在基因組學(xué)上的大規(guī)模應(yīng)用。而上世紀(jì)80年代出現(xiàn)的基因芯片技術(shù)可以大規(guī)模、高通量地研究眾多基因在各種生理、病理狀態(tài)下的多態(tài)性及其表達(dá)變化。1998年基因芯片計(jì)劃啟動(dòng),記憶中,1999年,南開大學(xué)生命科學(xué)院院長(zhǎng)從美國(guó)交流學(xué)習(xí)回來(lái)后很激動(dòng),為我們做了一場(chǎng)生物芯片的專題報(bào)告。專題報(bào)告使我深受感染,激發(fā)了我對(duì)高通量大數(shù)據(jù)分析研究的興趣,在申請(qǐng)博士時(shí),毅然選擇了生物信息方向。
2002年,我獲得英國(guó)達(dá)爾文基金會(huì)提供的全額獎(jiǎng)學(xué)金到愛(ài)丁堡大學(xué)攻讀博士學(xué)位?;饡?huì)提供的獎(jiǎng)學(xué)金不僅使我可以專心科研,無(wú)生活的后顧之憂,并且在博士課題啟動(dòng)之前為我提供了3個(gè)月的生物信息專業(yè)培訓(xùn),以彌補(bǔ)當(dāng)時(shí)我在生物信息領(lǐng)域經(jīng)驗(yàn)技術(shù)的不足。
我的博士課題,以及2008年我在倫敦大學(xué)國(guó)王學(xué)院所做的英國(guó)心臟基金會(huì)的項(xiàng)目,都主要專注于比較基因組學(xué),大批量蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè),大規(guī)模蛋白質(zhì)交互作用預(yù)測(cè),和蛋白質(zhì)組學(xué)分析,也就是說(shuō),主要集中在下游蛋白質(zhì)層次上的研究。從預(yù)測(cè)結(jié)構(gòu)出發(fā),研究變異和功能結(jié)構(gòu)之間的關(guān)系,以及蛋白質(zhì)之間的相互作用,來(lái)理解疾病的發(fā)生機(jī)制,為藥廠研發(fā)新藥提供理論基礎(chǔ)。
2005年底我博士畢業(yè)后,在愛(ài)丁堡大學(xué)信息學(xué)院人工智能研究中心做博士后。那時(shí)的我在加強(qiáng)信息計(jì)算方面的知識(shí)與能力的同時(shí),開始把視線轉(zhuǎn)向生物醫(yī)學(xué)信息分析,通過(guò)項(xiàng)目合作在愛(ài)丁堡大學(xué)醫(yī)學(xué)院接受了大量臨床試驗(yàn)、醫(yī)學(xué)統(tǒng)計(jì)、基因組、流行病學(xué)方面的知識(shí),為我今時(shí)今日的工作打下了基礎(chǔ)。
在這一系列的研究學(xué)習(xí)中,我意識(shí)到要深入了解疾病發(fā)生機(jī)制,還是先要從最基礎(chǔ)的遺傳物質(zhì)開始,在基因組、轉(zhuǎn)錄組層次上去研究和理解遺傳物質(zhì)所攜帶的信息。2010年,我轉(zhuǎn)入帝國(guó)理工大學(xué),承擔(dān)一項(xiàng)歐洲研究委員會(huì)的項(xiàng)目,主要應(yīng)用Illumina的solexa平臺(tái)和Roche的454平臺(tái),結(jié)合多種學(xué)科——分子系統(tǒng)發(fā)生學(xué)、群體遺傳學(xué)和基因組學(xué),在基因組和轉(zhuǎn)錄組水平來(lái)理解為什么同地域無(wú)地理隔絕情況新物種形成的機(jī)制,尋找與物種發(fā)生相關(guān)的基因。當(dāng)時(shí),我們所研究的物種,包括植物、魚類、鳥,大多都是非模式生物,因此涉及到的NGS技術(shù),也包含了從頭測(cè)序策略設(shè)計(jì)、參考基因組和轉(zhuǎn)錄組組裝、基因組轉(zhuǎn)錄組注釋,到重測(cè)序策略設(shè)計(jì)、變異識(shí)別、RNA剪切和表達(dá)水平變化分析、功能挖掘等。在2013-2015年間,開始承擔(dān)Syngenta、劍橋大學(xué)等一些公司和科研機(jī)構(gòu)在NGS方面的生物信息咨詢顧問(wèn)工作,對(duì)NGS技術(shù)及其分析應(yīng)用有了比較廣泛深入的了解。2014年底,我加入為朔醫(yī)學(xué)大數(shù)據(jù),幫助搭建基于NGS的個(gè)體化醫(yī)療數(shù)據(jù)分析注釋平臺(tái)。
NGS技術(shù)的發(fā)展和疾病基因組學(xué)的發(fā)展
人類基因組學(xué)計(jì)劃所產(chǎn)生的參考基因組是當(dāng)今人類基因組學(xué)研究的基礎(chǔ)。但參考基因組只是基于少數(shù)幾個(gè)個(gè)體的基因型而組成。而DNA作為遺傳物質(zhì),不但編碼了物種間的差異,物種內(nèi)不同個(gè)體之間的差異也包含其中。而這種差異絕大多數(shù)是非致病的、多態(tài)性的,但這類多態(tài)性差異在臨床上也往往具有很大的影響。它可能影響個(gè)體對(duì)疾病的易感性,也可能影響個(gè)體對(duì)藥物的敏感性或毒副作用,對(duì)藥物的代謝能力,也可能影響個(gè)體治療的預(yù)后效果。我們知道,與疾病發(fā)生相關(guān)的變異通常在人群中發(fā)生頻率較低,要發(fā)現(xiàn)這些與疾病發(fā)生相關(guān)的罕見變異,經(jīng)常需要千人規(guī)模的比對(duì)。對(duì)這些臨床相關(guān)的非致病變異和致病變異的大規(guī)模研究,是一代低通量測(cè)序技術(shù)難以實(shí)現(xiàn)的。
二代高通量測(cè)序技術(shù)從2005年出現(xiàn)在市場(chǎng)后,就得到迅速的應(yīng)用,不僅被大量用于非模式生物的基因組組裝和功能研究,也被廣泛用于人類基因組的重測(cè)序,來(lái)識(shí)別和篩選與疾病發(fā)生和治療相關(guān)的基因和變異。以腫瘤為例,腫瘤的發(fā)生是一個(gè)多步驟、多基因突變的過(guò)程。一個(gè)典型的實(shí)體瘤含有30到70個(gè)突變,其中包含2到8個(gè)驅(qū)動(dòng)基因突變。例外的如接受大量紫外線照射的黑色素瘤患者和吸煙肺癌患者,每個(gè)腫瘤可達(dá)到200個(gè)非同義突變,也就是所謂的熱腫瘤。識(shí)別這些變異就可以幫助病人進(jìn)行腫瘤的分子分型和準(zhǔn)確用藥。
用二代測(cè)序來(lái)識(shí)別腫瘤基因組中的變異也存在著很多挑戰(zhàn):健康組織的污染、DNA片段降解、腫瘤的異質(zhì)性、腫瘤基因組變異的多樣性等都需要在分析時(shí)針對(duì)腫瘤的特征進(jìn)行相應(yīng)的調(diào)整。有時(shí)甚至需要對(duì)腫瘤基因組進(jìn)行重新組裝來(lái)正確地識(shí)別大片段結(jié)構(gòu)變異。
搭建優(yōu)質(zhì)的生物醫(yī)學(xué)數(shù)據(jù)庫(kù),意義深遠(yuǎn)
高通量測(cè)序技術(shù)發(fā)展至今,它在臨床研究上的巨大價(jià)值已經(jīng)被充分證明。但二代測(cè)序的數(shù)據(jù)量大,即使由專業(yè)的生物信息人員分析,分析結(jié)果對(duì)臨床醫(yī)生來(lái)說(shuō)仍然如同天書,需要與臨床對(duì)接結(jié)構(gòu)化的精細(xì)數(shù)據(jù)庫(kù)做臨床解讀。
這就需要我們不僅做NGS測(cè)序和數(shù)據(jù)分析,同時(shí)需將基因信息與臨床對(duì)接,搭建優(yōu)質(zhì)的個(gè)體醫(yī)療數(shù)據(jù)庫(kù),包含疾病基因組學(xué)、藥物基因組學(xué)、基因變異數(shù)據(jù)庫(kù)、治療回訪數(shù)據(jù)庫(kù)。從PubMed、COSMIC,NCCN指南,F(xiàn)DA,ClinicalTrial,DrugBank等多個(gè)數(shù)據(jù)庫(kù)中,我們由專業(yè)團(tuán)隊(duì)人工教驗(yàn)收集,有嚴(yán)格的收錄質(zhì)控標(biāo)準(zhǔn)和流程,經(jīng)多方審核,可以說(shuō)是最精細(xì)、最結(jié)構(gòu)化的高效對(duì)接臨床,對(duì)分析結(jié)果出具臨床解讀報(bào)告。
我們研發(fā)的iCMDB已被新加坡健康科學(xué)局授予醫(yī)療器械級(jí)別的資質(zhì)—— ISO13485資質(zhì)認(rèn)證。目前已被國(guó)內(nèi)解放軍307醫(yī)院、301醫(yī)院、人民醫(yī)院、同仁醫(yī)院、武漢同濟(jì)醫(yī)院血液科等,國(guó)外新加坡中央醫(yī)院、新加坡國(guó)立醫(yī)院、美國(guó)西奈山醫(yī)院、泰國(guó)Ramathibodi醫(yī)院等接受或進(jìn)行合作。目前數(shù)據(jù)庫(kù)包括多種實(shí)體瘤、血液癌癥、線粒體基因病、傳染病、孟德爾式遺傳病、疾病風(fēng)險(xiǎn)預(yù)測(cè),以及150種藥物的藥物基因組學(xué)數(shù)據(jù),包括化療、放療、靶向治療方案、激素治療、細(xì)胞免疫治療、疾病進(jìn)展監(jiān)控及預(yù)后分析、抗藥性分析。
由NGS帶動(dòng)的個(gè)體化精準(zhǔn)醫(yī)療的發(fā)展,確確實(shí)實(shí)為許多患者帶來(lái)了希望。我所知道的一位非小細(xì)胞肺癌患者,患病快十年了,剛開始做基因測(cè)序,根據(jù)測(cè)到的變異找到了相應(yīng)的靶向藥,效果非常好。一兩年后產(chǎn)生了耐藥性,再次的基因檢測(cè)發(fā)現(xiàn)患者DNA上新發(fā)生的變異,幸運(yùn)的是剛好靶向新變異的藥得到批準(zhǔn),患者買到新藥服用后效果很好,腫瘤再次得到了控制。臨床應(yīng)用的實(shí)力,使我們更加有信心和動(dòng)力去完善和推廣我們自己的平臺(tái),為廣大患者醫(yī)療和生活質(zhì)量的提高做力所能及的貢獻(xiàn)。
未來(lái),生物醫(yī)學(xué)大數(shù)據(jù)在個(gè)體化醫(yī)療中的應(yīng)用會(huì)更加廣泛, Vishuo團(tuán)隊(duì)也將為科學(xué)研究項(xiàng)目提供適合的數(shù)據(jù)分析與解決方案,最大程度的提升病患的生存預(yù)期與生存質(zhì)量。
來(lái)源:測(cè)序中國(guó)