發(fā)布日期:2019-03-19
人類擁有23對染色體,約含有30億對堿基,某種程度上可以說這些堿基是我們每個人的“代碼”,而解讀基因則是實(shí)現(xiàn)人的“數(shù)字化”。
1975年,英國科學(xué)家Frederick Sanger發(fā)明了Sanger測序技術(shù),由此開啟了基因測序的新篇章。隨后,技術(shù)更迭,以高通量測序(NGS)為主的測序方法讓“基因解讀”成本快速下降、速度大力提升、通量也隨之?dāng)U大。
得益于此,從疾病的篩查、診斷到治療、預(yù)后,越來越來的臨床基因檢測項(xiàng)目落地、產(chǎn)品商業(yè)化,例如無創(chuàng)產(chǎn)前檢測、試管嬰兒中的胚胎植入前檢測、新生兒疾病篩查、腫瘤易感基因篩查、腫瘤個性化用藥、遺傳病篩查……
除了臨床級、科研級應(yīng)用,越來越多的人開始對消費(fèi)級基因測序產(chǎn)品感興趣,“祖源分析”、“運(yùn)動基因”、“皮膚特性”等項(xiàng)目讓大家重新認(rèn)識基因的“奇妙”。這也預(yù)示著,基因檢測正從醫(yī)療技術(shù)走向消費(fèi)級技術(shù)。
從上世紀(jì)60年代“DNA雙螺旋結(jié)構(gòu)”被人類發(fā)現(xiàn),到15年前“人類基因組計(jì)劃”正式宣告完成,再到今天的“個性化醫(yī)療”,現(xiàn)代醫(yī)學(xué)正從“經(jīng)驗(yàn)試錯、同病同治”的傳統(tǒng)模式朝著“同病異治、循證醫(yī)學(xué)”的方向升級,而基因測序也正發(fā)展成其中的重要組成部分。
基因組時代下的“數(shù)字痛點(diǎn)”
據(jù)測算,一個人一生與健康相關(guān)的數(shù)據(jù)整合起來大約10TB,一百萬人的數(shù)據(jù)量約為10EB。此外,還有大量動植物基因組、轉(zhuǎn)錄組、微生物基因組及宏基因組測序分析等科研服務(wù)項(xiàng)目,數(shù)據(jù)類型和數(shù)量異常龐大。
隨著高通量測序的廣泛應(yīng)用、測序設(shè)備自動化程度的提高,測序數(shù)據(jù)正成幾何增長,這無疑會對數(shù)據(jù)計(jì)算能力提出挑戰(zhàn)。
而且,測序儀運(yùn)行產(chǎn)生的原始數(shù)據(jù)并不能直接提供關(guān)于疾病的信息,測序企業(yè)需要依據(jù)生物信息學(xué)的方法,對海量的測序數(shù)據(jù)進(jìn)行復(fù)雜的過濾、比對、拼接和處理、數(shù)據(jù)分析等重重步驟,才能獲得基因組上的變異信息,再結(jié)合遺傳學(xué)、病理學(xué)以及其他組學(xué)等信息共同分析,最終才能轉(zhuǎn)化為人們可理解的生物學(xué)數(shù)據(jù),為疾病的診療提供參考和指導(dǎo)。
依據(jù)現(xiàn)有測序技術(shù)計(jì)算,每次單人全測序可能產(chǎn)生1.5T數(shù)據(jù),傳統(tǒng)IT計(jì)算能力針對這些數(shù)據(jù)分析和解讀,每次計(jì)算至少需6天時間。這對于臨床應(yīng)用而言,時間上無疑是耗不起的。
如何解決“算的沒有測的快”?如何從海量數(shù)據(jù)中挖掘有效的信息? 這是專注于精準(zhǔn)醫(yī)療領(lǐng)域的企業(yè)未來可能需要面臨的難題之一。測序數(shù)據(jù)處理和分析的技術(shù)壁壘較高,是掣肘基因測序企業(yè)發(fā)展的關(guān)鍵因素,也是企業(yè)核心競爭力所在。
此外,數(shù)據(jù)是“敏感”的,它牽扯隱私問題。傳統(tǒng)的基因公司在IT方向能力較弱,容易忽視大數(shù)據(jù)的安全存儲、授權(quán)共享等問題。而且,樣本數(shù)據(jù)庫需要流通,孤立的數(shù)據(jù)無法發(fā)揮最大價值。這些問題都是測序行業(yè)亟待謹(jǐn)慎解決的課題。
云計(jì)算、云存儲是趨勢
在海量數(shù)據(jù)面前,人工智能的呼聲越來越高,生命科學(xué)行業(yè)“云化發(fā)展”也成為一種趨勢。它可以免去傳統(tǒng)測序企業(yè)自建數(shù)據(jù)中心的繁瑣和成本(包括購置大型計(jì)算和存儲設(shè)備,日常維護(hù)等),保證輕資產(chǎn)運(yùn)營的同時實(shí)現(xiàn)測序數(shù)據(jù)的存儲、共享和解讀。
參考華金證券股份有限公司研究所報告,目前國家基因庫的原始數(shù)據(jù)量已經(jīng)達(dá)到1000TB,對于這種規(guī)模的數(shù)據(jù)庫,簡單的數(shù)據(jù)分析就可能需要很長的時間,會碰到嚴(yán)重的數(shù)據(jù)輸入/輸出問題。本地計(jì)算機(jī)顯然難以單獨(dú)完成,因此目前通常采用云計(jì)算解決。
以華為云為例:在計(jì)算上,云服務(wù)器可以搭載基因測序?qū)S盟惴?,以最少的時間計(jì)算出結(jié)果,降低計(jì)算成本;在存儲上,云平臺基于分布式架構(gòu)能夠提供可彈性擴(kuò)展的塊存儲服務(wù);在傳輸上,測序儀產(chǎn)生的大量數(shù)據(jù)可以依靠專線、裸光纖網(wǎng)絡(luò)進(jìn)行共享,且可實(shí)現(xiàn)數(shù)據(jù)的加密。
此外,基因測序有各種復(fù)雜的工作場景,華為云非常重視資源打通,即聯(lián)合各類頂尖企業(yè)共同建設(shè)整個基因技術(shù)生態(tài)。華為云專注于底層資源算力的領(lǐng)先,上層選擇與這些企業(yè)生態(tài)伙伴合作,共同創(chuàng)新,形成聯(lián)合解決方案滿足基因行業(yè)多樣化的技術(shù)訴求,并且對客戶和合作企業(yè)的數(shù)據(jù)保持清晰的邊界。
據(jù)悉,華為云已與武漢未來組、貝瑞基因、金橡醫(yī)學(xué)等企業(yè)達(dá)成合作,為測序企業(yè)的數(shù)據(jù)運(yùn)算、存儲保駕護(hù)航。
“云計(jì)算的到來,使數(shù)據(jù)以及計(jì)算全部可以在云上完成,滿足企業(yè)數(shù)據(jù)不下云、高效完成計(jì)算的需求。這一做法減少了企業(yè)重資產(chǎn)以及維護(hù)的工作,使客戶更聚焦在自身的業(yè)務(wù)發(fā)展上。”華為云相關(guān)負(fù)責(zé)人總結(jié)道,“云化發(fā)展可以提供高性能、高可靠、簡便安全的計(jì)算服務(wù),滿足生物醫(yī)藥中基因測序等需求,縮短產(chǎn)品上市周期,提升企業(yè)效益。選擇華為云更可靠。”
中國工程院院士、北京大學(xué)醫(yī)學(xué)部主任詹啟敏曾說過,精準(zhǔn)醫(yī)療的重點(diǎn)不在“醫(yī)療”,而在“精準(zhǔn)”。通過基因組、蛋白質(zhì)組、代謝組等組學(xué)技術(shù)和醫(yī)學(xué)前沿技術(shù),對于大樣本人群與特定疾病類型進(jìn)行生物標(biāo)記物的分析與鑒定、驗(yàn)證與應(yīng)用,從而精確尋找到疾病的原因和治療的靶點(diǎn),并對一種疾病不同狀態(tài)和過程進(jìn)行精確分類,最終實(shí)現(xiàn)對于疾病和特定患者進(jìn)行個性化精準(zhǔn)治療的目的,提高疾病診治與預(yù)防的效益。
基因數(shù)據(jù)是人類的重要資源,從其測序、存儲、共享,到輸出給科研、醫(yī)療機(jī)構(gòu),只有最終轉(zhuǎn)變?yōu)橛行У倪z傳解讀、診療手段或者藥物,方能顯示出價值。
來源:生物探索