發(fā)布日期:2017-08-08
近日,騰訊架構平臺部的高級工程師顏克洲向外介紹了騰訊AI lab在乳腺癌的病例圖像識別以及鉬靶識別方面的研究進展。
為什么選擇乳腺癌這個方向?
他說,對于中國女性群體來說,乳腺癌是發(fā)病率最高的惡性腫瘤之一。據相關數據統(tǒng)計,我國每10萬人中就有40多個人罹患乳腺癌?;诖耍v訊AI lab發(fā)力該領域,希望能夠利用技術攻破治療難題,以惠及更多普通人群。
在乳腺癌的檢查及研究方面,騰訊AI lab選擇了兩個具體方向。一、鉬靶;二、病理學。
對于鉬靶來說,它是一種非常常見的篩查手段,它能夠普惠到基層醫(yī)院。但目前很多醫(yī)生在鉬靶方面的研究和熟悉程度有所欠缺。因此,騰訊AI lab希望可以借助AI技術,幫助到基層醫(yī)院的一些醫(yī)生在鉬靶方面做一些提升。
對于病理學檢查方向。在顏克洲看來,該方向用計算機處理會比人類更加適合。病理學研究“區(qū)域”非常廣泛,它可能有10萬×10萬個小細胞。如果依靠醫(yī)生肉眼去看,全是密密麻麻的小細胞,這將是個非常痛苦且有巨大挑戰(zhàn)的過程;如果用計算機去執(zhí)行就會變得相對簡單,它就可以將這些細胞進行拆分,做高并發(fā)研究。
騰訊AI lab在病理學圖像識別的進展
在病理學圖像的識別上,騰訊AI lab將其分為兩個步驟。
一、在手術中或者手術后,將病人的淋巴結切下,觀察癌細胞的位置及大?。?/p>
二、然后對此癌細胞進行組織學分析。組織學分析是將癌變的組織切下來,觀察它的分化程度,然后來確定方案。
據顏克洲介紹,騰訊AI lab早期就做過淋巴結切片的分析。對于這個切片,從病理學圖片的識別來看存在一些難點。
醫(yī)學上的病理切片分析需要的是波片掃描的數據,但是目前該數據量非常少,因為它需要把整個波片全部數字化。如今很多醫(yī)院都還沒有普及數字病理機;另外,很多醫(yī)生由于在醫(yī)學院從一開始接觸的就是顯微鏡,因此他們比較抵觸使用這些機器。其實使用數字病理機只是把原先用顯微鏡看到的東西數字化而已。
該切片是張超級大型的圖片,達到了10萬×10萬像素,這無論是對于人還是計算機來說,對此圖片做識別和分析都有一定難度及挑戰(zhàn)。
細胞形態(tài)非常類似。癌細胞與淋巴結上的一些巨噬細胞在形態(tài)上非常相象,但這兩類細胞與普通的淋巴結細胞又有比較大的區(qū)別。
針對以上三個難點,騰訊AI lab提出了相應解決方案。
對于醫(yī)療機器的應用難題,后期可以給機器增加一些輔助功能。比如說能夠幫助醫(yī)生大概預估治療結果等,這也許會逐步提升醫(yī)生對于這些機器的好感;
對于超大型圖片,可以化整為零,把它切成了多個patch去做分析;
而對于細胞形態(tài),可以采用多數據融合的方式去分析,這個過程可以分為三個部分。
首先做一個淺處理,把切片中有用的部分全部切出來;
再者是進行分類。由于癌細胞與巨噬細胞非常相像,騰訊AI lab采用了一種激活的訓練手段訓練了兩種網絡:第一個是普通的正常和癌變細胞的網絡;第二個是針對巨噬細胞跟癌變的一個有特別分辨能力的網絡;之后又將這兩個網絡用一個權重進行融合得到細胞病變的概率。
得到概率之后,可以利用病灶膨脹閥過濾掉一些傳統(tǒng)的計算機識別的特征,包括細胞核個數、假陽性的組織等等;然后再融合它原本的一些計算機視覺的特征。比如說這個小片里面細胞的密度以及細胞的一些顏色的浮動,這些信息最終用一個概率圖模型來輸出,緊接著處理成一張熱力圖;形成熱力圖之后,經過一些降噪的手段將其變得更加精確;最后把它的病灶點進行聚類,再確定病灶大小,給它進行N分級。
雷鋒網AI掘金志了解到,在最近的一次對于甲狀腺的研究實驗中,它的病灶召回率在0.83左右,而人類的水平大概在0.7左右。
騰訊在鉬靶圖像識別上的進展
接下來顏克洲還介紹了一下騰訊AI lab在鉬靶圖像識別上的一些進展。他表示,騰訊AI lab之前對眾多醫(yī)生進行了一些調研,在鉬靶圖像這塊總結出兩個痛點:
一、醫(yī)生很容易漏掉癌癥的病變組織,也許是根本沒有找到;
二、找到一塊病灶組織,但分不清楚它的良/惡性概率是多少。
顏克洲透露,騰訊AI lab有嘗試去解決這些痛點,但發(fā)現其中也有一些難點。
沒有大量的數據和標注去訓練神經網絡。
這類圖片與普通圖片不太一樣,用普通的神經網絡算法在醫(yī)學中應用不太可行。
鉬靶圖片有其特殊之處——同病理。在鉬靶圖像識別率這個領域,單看一張圖根本不知道患者有什么疾病。醫(yī)生診斷的時候通常會對比患者的左胸和右胸圖片,它的組織是基本對稱的,最后來確定患者到底是不是有問題。
針對這三大難題,騰訊AI lab也做了一些探索。
數據獲取方面。在數據不夠的情況下,機器很大程度上在學習醫(yī)生在平時診斷時的做法。它將醫(yī)生的辦法抽象成一個數學方法,利用醫(yī)生的知識把一些可疑的病灶進行判斷,然后將這些知識提取出來,應用到神經網絡中去進行輔助分析。
設計專門的醫(yī)用神經網絡,針對非標準圖片去做。
模仿醫(yī)生看片的流程,在方法上做了多圖對比的一個過程。
實現框架主要也有三大塊:
利用NLP把標簽拿到。利用NLP技術把病人的鉬靶報告和病理報告拿到以后,提取它的標簽,然后利用這些標簽對整圖做訓練。
做全處理。對于此步驟,騰訊AI lab會重點根據醫(yī)生的一些相應知識去做處理。
拿到label和image后,再結合與醫(yī)院拿到的一些數據標記,做神經網絡訓練,最后分辨它屬不屬于癌細胞。
這其中也包含三個過程:
第一步是把鉬靶報告和病理報告里面的結構化信息利用NLP技術提取出來;然后用計算機視覺的方法找到一些疑似的病灶(當然這些病灶不一定是真正有用的病灶,或者是真正癌變的病灶,但是至少可以大大縮減分析范圍),把無用的一些地方去掉;再者用計算機語言來找到它的ROI,找到這些ROI以后,后面在做神經網絡的分類或者訓練就會相對容易得多。
第二步是進行多圖對比。將兩張圖片利用醫(yī)學圖像的技術做對齊;對齊以后再做一個差分;差分完了以后,再將結果返回到剛才的第一步做循環(huán),去找到那個關鍵的、感興趣的組織。
第三步也是最關鍵的步驟,拿到了ROI以后,將它放到神經網絡里面去訓練,訓練它是或者不是癌變細胞,但是正如前面所言,其實目前的標注量用來訓練神經網絡是遠遠不夠的。因為神經網絡的訓練一定是需要成千上萬張這樣的一個級別,因此一定要融入一些其他的醫(yī)學知識。
融入哪些醫(yī)學知識呢?
一、一些計算機視覺特征的知識。將病灶放到神經網絡里面去,其實會丟失很多特征。比如說在原圖位置的特征、大小特征、毛刺特征等等。然后將這些特征用另外一條通路把它描述出來;
二、醫(yī)生在給患者做診斷時所依賴的一些特征。值得注意的是,還要對患者的年齡、性別、以及既往病史作了解并進行處理,最后用概率圖模型將這些特征做融合,得到良/惡性的概率。
顏克洲補充說,騰訊AI lab目前在研究良/惡性病灶方面也有一些進展。在疑似病灶的地方,騰訊AI lab大概在每張圖有1.5個假陽性的情況下可以獲得80%的病灶覆蓋率,該水平已經超過了人類。
他透露,接下來騰訊AI lab對于乳腺癌這個方向在診斷方面一定會融合盡量多的醫(yī)學信息,盡量把患者的一些病歷數據、影像數據、基因數據做多數據的融合,最后對病人做出一個綜合的診斷,而不僅僅是把它當成一個圖像工程去做。
如今基于AI的相關技術正聯(lián)合各項應用及研究走進人們的生活,來到人們的身邊。正如AI應用于乳腺癌識別一樣,這一切都是為了讓人人都享受更好的醫(yī)療服務,期待相關企業(yè)和機構在乳腺癌項目上的研究能夠盡快有所突破,造福普通患者。
來源::AI掘金志(微信號 HealthAI)