發(fā)布日期:2017-04-20
國(guó)家癌癥中心/中國(guó)醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院腫瘤醫(yī)院 胸外科 高亦博
國(guó)家癌癥中心依托中國(guó)醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院,是全國(guó)腫瘤防治研究和信息交流的中心,承擔(dān)著采集和發(fā)布全國(guó)腫瘤登記數(shù)據(jù)、建立全國(guó)癌癥防治協(xié)作網(wǎng)絡(luò)、開展全國(guó)癌癥防控科學(xué)研究的職責(zé),牽頭組織實(shí)施城市、農(nóng)村、淮河流域癌癥早診早治項(xiàng)目以及腫瘤高發(fā)現(xiàn)場(chǎng)工作,也是國(guó)家腫瘤規(guī)范化診治質(zhì)控中心、國(guó)家腫瘤臨床醫(yī)學(xué)研究中心等,是全國(guó)腫瘤臨床大數(shù)據(jù)匯集、分析、研究、上報(bào)、發(fā)布的中心。在參與國(guó)家癌癥中心/中國(guó)醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院承擔(dān)的腫瘤臨床大數(shù)據(jù)相關(guān)研究項(xiàng)目過(guò)程中,也曾反復(fù)遇到一些難點(diǎn)和問(wèn)題,在處理過(guò)程中得出了一些經(jīng)驗(yàn)和體會(huì),由此對(duì)未來(lái)的腫瘤大數(shù)據(jù)研究重點(diǎn)和難點(diǎn)有了更深認(rèn)識(shí)。
腫瘤臨床大數(shù)據(jù)系列研究布局
醫(yī)科院腫瘤醫(yī)院胸外科早在“十五”、“十一五”時(shí)期,即依托中國(guó)抗癌協(xié)會(huì)食管癌專業(yè)委員會(huì),牽頭開展全國(guó)食管癌規(guī)范化診治監(jiān)察網(wǎng)絡(luò)平臺(tái)的建設(shè)工作。作為國(guó)內(nèi)最早建立的腫瘤專病大數(shù)據(jù)智能化信息網(wǎng)絡(luò)平臺(tái),聯(lián)網(wǎng)全國(guó)82家在食管癌臨床診治方面具有較大規(guī)模和較高水平的三級(jí)甲等醫(yī)院,并設(shè)立了12個(gè)地區(qū)級(jí)分中心,涵蓋了除臺(tái)灣、西藏的所有省級(jí)行政單位,采用規(guī)范化的數(shù)據(jù)標(biāo)準(zhǔn)和網(wǎng)絡(luò)直報(bào)平臺(tái),累計(jì)錄入食管癌的手術(shù)和綜合治療病例3.26萬(wàn)例,為全國(guó)食管癌診治技術(shù)和模式的規(guī)范化做出了獨(dú)特貢獻(xiàn),作為“食管癌規(guī)范化診治關(guān)鍵技術(shù)的研究與應(yīng)用推廣”的重要組成部分,獲得2013年國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
十二五期間,在此前食管癌臨床大數(shù)據(jù)網(wǎng)絡(luò)建設(shè)和研究成功經(jīng)驗(yàn)的基礎(chǔ)上,國(guó)家癌癥中心/腫瘤醫(yī)院承擔(dān)了國(guó)家科技支撐計(jì)劃項(xiàng)目“基于癌癥監(jiān)測(cè)信息網(wǎng)絡(luò)的腫瘤規(guī)范化診治研究”和國(guó)家高技術(shù)發(fā)展(863)計(jì)劃“惡性腫瘤大數(shù)據(jù)處理分析與應(yīng)用研究”的任務(wù),針對(duì)我國(guó)發(fā)病率、死亡率高,社會(huì)負(fù)擔(dān)較重的八大腫瘤:肺癌、肝癌、食管癌、胃癌、結(jié)腸癌、直腸癌、乳腺癌、宮頸癌,聯(lián)網(wǎng)東北、華北、華中、華東、華南、西南、西北七個(gè)大區(qū),14家有代表性和地區(qū)領(lǐng)先示范作用的省級(jí)腫瘤醫(yī)院/癌癥中心,開展腫瘤大數(shù)據(jù)獲取、存儲(chǔ)、處理與分析的關(guān)鍵技術(shù)研究,構(gòu)建腫瘤大數(shù)據(jù)中心和系統(tǒng)平臺(tái);應(yīng)用大數(shù)據(jù)技術(shù)對(duì)腫瘤治療過(guò)程中產(chǎn)生的海量臨床數(shù)據(jù)進(jìn)行處理與分析,形成以腫瘤單病種為主題的數(shù)據(jù)集;構(gòu)建知識(shí)庫(kù)及分析模型庫(kù),為腫瘤疾病的診治提供決策支持;開展腫瘤規(guī)范化診治研究,建立質(zhì)量控制體系,優(yōu)化腫瘤防控策略,提高腫瘤的綜合診治水平等。
腫瘤臨床大數(shù)據(jù)系列研究主要內(nèi)容和進(jìn)展
當(dāng)前腫瘤大數(shù)據(jù)研究的具體內(nèi)容可以簡(jiǎn)要概括為以下幾個(gè)方面:①確定采集數(shù)據(jù)的內(nèi)容及規(guī)范:包括患者人口學(xué)基本信息、發(fā)病及診斷信息、治療信息、隨訪信息、科研信息等;②構(gòu)建全國(guó)癌癥監(jiān)測(cè)網(wǎng)絡(luò):搭建網(wǎng)絡(luò)基礎(chǔ)架構(gòu)、數(shù)據(jù)交換、數(shù)據(jù)中心、業(yè)務(wù)應(yīng)用、綜合管理等;③構(gòu)建腫瘤單病種數(shù)據(jù)庫(kù):確定各專業(yè)數(shù)據(jù)庫(kù)字段,將結(jié)構(gòu)化字段自動(dòng)導(dǎo)入系統(tǒng),采用數(shù)據(jù)挖掘工具將非結(jié)構(gòu)化數(shù)據(jù)納入等;④綜合數(shù)據(jù)分析:預(yù)定報(bào)表模型深入挖掘分析腫瘤分型,診療,癌癥死亡分析,癌癥控制統(tǒng)計(jì)分析,治療費(fèi)用等;⑤數(shù)據(jù)上報(bào)質(zhì)量控制:設(shè)計(jì)信息系統(tǒng)標(biāo)準(zhǔn)數(shù)據(jù)接口,規(guī)范數(shù)據(jù)字典;收集各醫(yī)院的接口數(shù)據(jù),校驗(yàn)上報(bào)數(shù)據(jù),對(duì)整體性、種類完整性、數(shù)據(jù)項(xiàng)完整性等進(jìn)行檢查;數(shù)據(jù)清洗,處理問(wèn)題數(shù)據(jù),收集原始資料,保障數(shù)據(jù)溯源;組織醫(yī)療專業(yè)人員進(jìn)行業(yè)務(wù)邏輯核查和數(shù)據(jù)修正,并對(duì)數(shù)據(jù)字典和采集規(guī)范進(jìn)行補(bǔ)充、完善等;⑥癌癥規(guī)范化診治研究:制定或更新適合中國(guó)國(guó)情的癌癥診治規(guī)范,修改完善符合我國(guó)患者特點(diǎn)的癌癥分期標(biāo)準(zhǔn),獲得符合循證醫(yī)學(xué)的高級(jí)別證據(jù)用以指導(dǎo)臨床。
截至2016年,項(xiàng)目已經(jīng)由行業(yè)專家協(xié)商制定擬采集的數(shù)據(jù)內(nèi)容及規(guī)范,編制統(tǒng)一的數(shù)據(jù)字典,結(jié)合我國(guó)廣泛采用的醫(yī)療信息化系統(tǒng)特點(diǎn),確定了包括電子病歷、檢驗(yàn)檢查、處方醫(yī)囑、治療計(jì)劃、隨訪信息等在內(nèi)的20個(gè)大項(xiàng)、400余個(gè)小項(xiàng)的采集規(guī)范;完成國(guó)家癌癥中心與 14 家省級(jí)腫瘤醫(yī)院的加密VPN網(wǎng)絡(luò)接入,完成服務(wù)器、防火墻、網(wǎng)關(guān)等基本硬件的部署,實(shí)現(xiàn)了數(shù)據(jù)推送和抓??;建立了自主知識(shí)產(chǎn)權(quán)的集成開發(fā)環(huán)境,支持各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。參考大數(shù)據(jù)項(xiàng)目的數(shù)據(jù)規(guī)范和工作經(jīng)驗(yàn),制定了多種常見腫瘤的單病種規(guī)范化診治的醫(yī)療質(zhì)控指標(biāo),已上報(bào)國(guó)家衛(wèi)生計(jì)生委醫(yī)政醫(yī)管局。
腫瘤臨床大數(shù)據(jù)研究中的常見問(wèn)題與解決
通常認(rèn)為,可以視為大數(shù)據(jù)的數(shù)據(jù)資源一般具有:數(shù)據(jù)總量大、數(shù)據(jù)結(jié)構(gòu)和類型復(fù)雜、單位數(shù)據(jù)價(jià)值密度較低、生成速度快等幾個(gè)共同特征。因此其數(shù)據(jù)特征與常規(guī)的基礎(chǔ)和臨床醫(yī)學(xué)研究、循證醫(yī)學(xué)臨床試驗(yàn)等均有比較顯著的區(qū)別,對(duì)開展和從事大數(shù)據(jù)研究的醫(yī)療機(jī)構(gòu)和相關(guān)專業(yè)人員提出了獨(dú)特的需求和挑戰(zhàn)。在此僅舉三個(gè)典型話題進(jìn)行初步的探討。
1.保障醫(yī)院信息化系統(tǒng)運(yùn)營(yíng)安全是開展臨床大數(shù)據(jù)研究的前提
醫(yī)院信息化系統(tǒng)已成為大型醫(yī)院臨床業(yè)務(wù)正常運(yùn)轉(zhuǎn)的必備條件,其持續(xù)穩(wěn)定運(yùn)行的保障是醫(yī)院信息部門的工作重點(diǎn)。另一方面由于工作職責(zé)優(yōu)先級(jí)的不同,醫(yī)療機(jī)構(gòu)開展的公共衛(wèi)生、基因組學(xué)研究對(duì)大數(shù)據(jù)存儲(chǔ)、管理和分析的需求往往不能從院級(jí)醫(yī)療信息平臺(tái)得到充分保障,時(shí)常造成資源的重復(fù)建設(shè),提高了研究的時(shí)間、人力和經(jīng)費(fèi)成本。兩方面的矛盾需求可以采用與醫(yī)院業(yè)務(wù)系統(tǒng)相對(duì)獨(dú)立建立大數(shù)據(jù)研究專用數(shù)據(jù)倉(cāng)庫(kù),并且在運(yùn)行壓力較小時(shí)與集成平臺(tái)或臨床數(shù)據(jù)倉(cāng)庫(kù)通信的方式獲取數(shù)據(jù)來(lái)解決,直至開發(fā)成具有比較完整獨(dú)立的業(yè)務(wù)邏輯的產(chǎn)品后,再反哺業(yè)務(wù)系統(tǒng)。
2. 臨床大數(shù)據(jù)內(nèi)涵和外延的延伸模糊了數(shù)據(jù)規(guī)范性、規(guī)則完備性、參照完整性的邊界
除了臨床診療中被動(dòng)積累的業(yè)務(wù)系統(tǒng)運(yùn)行數(shù)據(jù)、電子病歷和影像檢查數(shù)據(jù)以外,醫(yī)療機(jī)構(gòu)主動(dòng)開展的腫瘤相關(guān)基礎(chǔ)和臨床研究也產(chǎn)生了具有龐大數(shù)據(jù)量或涉及大規(guī)模人群的基因組學(xué)、人群或隊(duì)列篩查體檢數(shù)據(jù)等,已成為腫瘤大數(shù)據(jù)的重要來(lái)源。但由于各自數(shù)據(jù)類型和結(jié)構(gòu)特征的巨大差異,很少有成熟的醫(yī)療信息化平臺(tái)或工具可以將之整合,導(dǎo)致付出很高成本獲得的數(shù)據(jù)資源難以充分發(fā)揮其作用和價(jià)值。此外,盡管臨床大數(shù)據(jù)的采集不再設(shè)置很高門檻,然而循證醫(yī)學(xué)臨床研究范式中的選擇性偏倚、幸存者偏倚、測(cè)量偏倚等混雜偏倚和數(shù)據(jù)間的交互作用仍是設(shè)計(jì)數(shù)據(jù)分析策略、報(bào)表、發(fā)布研究結(jié)論等過(guò)程中需要充分考慮的問(wèn)題,即腫瘤臨床大數(shù)據(jù)研究本質(zhì)上仍然屬于醫(yī)學(xué)研究,其結(jié)論的得出不應(yīng)因?yàn)椴捎么髷?shù)據(jù)技術(shù)而對(duì)方法的合理性或結(jié)論的可信度降低要求。
3. 需要著力注意避免專業(yè)偏見和關(guān)注虛假需求
當(dāng)前從事大數(shù)據(jù)研究開發(fā)的復(fù)合型人才嚴(yán)重缺乏,從業(yè)人員很大一部分來(lái)自于IT產(chǎn)業(yè),或者具有分子生物學(xué)或生物信息學(xué)基礎(chǔ)研究背景,然而不同學(xué)科、不同角色的需求大相徑庭,在研究和產(chǎn)品中常會(huì)限于先驗(yàn)偏見或偏離真實(shí)需求。比較典型的例子如以下四種。
(1)不能擺脫原有專業(yè)思維習(xí)慣:腫瘤學(xué)和基因組學(xué)研究常傾向于使用覆蓋數(shù)百個(gè)基因,可能有較多新發(fā)現(xiàn)的基因測(cè)序Panel,甚至用全外顯子組、全基因組測(cè)序在臨床樣本中進(jìn)行篩選,然而臨床應(yīng)用需求則主要集中于有靶向和免疫治療藥物使用指征的個(gè)別基因甚至個(gè)別突變位點(diǎn)的檢測(cè)。過(guò)多的基因分析結(jié)果給臨床解讀、醫(yī)患溝通和實(shí)際應(yīng)用都帶來(lái)了過(guò)多的工作量,卻難有明確的臨床獲益。
(2)對(duì)研發(fā)成本和實(shí)用難度估計(jì)不足:部分醫(yī)療大數(shù)據(jù)研究團(tuán)隊(duì)在尚無(wú)充分證據(jù)時(shí),貿(mào)然將產(chǎn)品定位為替代醫(yī)生的智力勞動(dòng),然而其成本或效率優(yōu)勢(shì)仍主要存在于紙面估算,只關(guān)注到理論邊際成本很低的優(yōu)勢(shì),而對(duì)前期開發(fā)、驗(yàn)證和推廣的時(shí)間成本和社會(huì)成本估計(jì)不足。
(3)研究目的與真實(shí)需求錯(cuò)配:例如以媒體報(bào)道的看病難、看病貴為默認(rèn)前提,而實(shí)際上在很多情況下一般性醫(yī)療服務(wù)可及性不差,但是有效需求不足;優(yōu)質(zhì)醫(yī)療服務(wù)可及性差,但由于負(fù)荷已滿而缺乏進(jìn)一步提高可及性的動(dòng)力。部分所謂顛覆性技術(shù)成果并未設(shè)置嚴(yán)格的對(duì)照,缺乏專業(yè)權(quán)威認(rèn)可的嚴(yán)格實(shí)踐檢驗(yàn),并且沒有充分考慮醫(yī)療行為主客體即醫(yī)生與患者的心理訴求。
(4)超越知識(shí)和技術(shù)發(fā)展階段:通過(guò)機(jī)器學(xué)習(xí)支持臨床決策支持和提高診療水平,必須依賴大批高質(zhì)量的訓(xùn)練數(shù)據(jù)和詳盡臨床轉(zhuǎn)歸、結(jié)局、隨訪等信息的迭代優(yōu)化,這樣的數(shù)據(jù)仍然十分稀缺。近年來(lái)生物醫(yī)學(xué)界已經(jīng)越來(lái)越多地意識(shí)到公開發(fā)表論文中,大部分的結(jié)論無(wú)法嚴(yán)格重現(xiàn)。根據(jù)眾所周知的“Garbage In,Garbage Out”(無(wú)用輸入,無(wú)用輸出)一般規(guī)律,當(dāng)大多數(shù)醫(yī)生診療水平無(wú)法與頂尖專家相比時(shí),大數(shù)據(jù)研究方式反而有可能成為劣勢(shì)。
結(jié)語(yǔ)和展望
隨著大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以及臨床大數(shù)據(jù)研究開發(fā)的快速推進(jìn),腫瘤臨床大數(shù)據(jù)研究未來(lái)的發(fā)展方向仍會(huì)繼續(xù)堅(jiān)持科學(xué)審慎原則,整合生物-醫(yī)學(xué)大數(shù)據(jù),推動(dòng)臨床真實(shí)需求導(dǎo)向和應(yīng)用驅(qū)動(dòng)的增量改進(jìn)。以國(guó)家級(jí)重大研發(fā)項(xiàng)目為牽引,依托腫瘤早診早治和規(guī)范化診治體系、醫(yī)保單一付費(fèi)體系等,醫(yī)療大數(shù)據(jù)的所有權(quán)、使用權(quán)、收益權(quán)的歸屬問(wèn)題,患者知情同意、隱私保護(hù),醫(yī)療機(jī)構(gòu)信息煙囪、信息孤島等長(zhǎng)期困擾臨床大數(shù)據(jù)技術(shù)發(fā)展的問(wèn)題有望得到緩解。
來(lái)源:中國(guó)數(shù)字醫(yī)學(xué)