作者:宗華發(fā)布日期:2018-06-26
在人類基因組項(xiàng)目完成十多年后,辨別基因仍是一項(xiàng)挑戰(zhàn)。
圖片來源:Alan Phillips/Getty
估測(cè)人類基因組中基因數(shù)量的最早嘗試涉及喝醉酒的基因?qū)W家、美國(guó)紐約冷泉港的一個(gè)酒吧以及純粹的臆測(cè)。
那是2000年。當(dāng)時(shí),人類基因組序列草圖仍在繪制中?;?qū)W家正在打賭人類擁有多少基因,賭注從幾萬個(gè)到幾十萬個(gè)不等。近20年后,掌握了真實(shí)數(shù)據(jù)的科學(xué)家仍無法就這一數(shù)量達(dá)成一致。在他們看來,這一知識(shí)鴻溝阻礙了發(fā)現(xiàn)相關(guān)疾病突變的努力。
填補(bǔ)這一空白的最新努力利用了來自上百個(gè)人類組織樣本的數(shù)據(jù),并于日前發(fā)表在預(yù)印本服務(wù)器BioRxiv上。它包括近5000個(gè)此前未被發(fā)現(xiàn)的基因,其中近1200個(gè)攜帶制造蛋白質(zhì)的指令。2.1萬余個(gè)蛋白質(zhì)編碼基因的總數(shù)和此前估測(cè)(認(rèn)為這一數(shù)字在2萬左右)相比有大幅提高。
不過,很多遺傳學(xué)家仍不相信所有最新提出的基因都能經(jīng)得起仔細(xì)推敲。他們的批評(píng)強(qiáng)調(diào)了辨別新基因甚至定義一個(gè)基因的難度。
“20年來,人們一直致力于此項(xiàng)研究,但我們?nèi)晕传@得答案。”帶領(lǐng)團(tuán)隊(duì)開展最新研究的約翰斯·霍普金斯大學(xué)計(jì)算生物學(xué)家Steven Salzberg表示。
2000年,隨著基因組學(xué)界就有多少人類基因?qū)⒈话l(fā)現(xiàn)的問題展開熱烈討論,Ewan Birney發(fā)起了GeneSweep競(jìng)賽。如今身為歐洲生物信息學(xué)研究所(EBI)聯(lián)合所長(zhǎng)的Birney在一年一度的基因組學(xué)會(huì)議期間,在一間酒吧里最先下注。
這場(chǎng)競(jìng)賽最終吸引了1000多人參與以及3000美元的累積賭注。關(guān)于基因數(shù)量的賭注從多于31.2萬個(gè)到不足2.6萬個(gè)不等,平均在4萬左右。當(dāng)時(shí),估測(cè)的數(shù)量范圍已經(jīng)縮小,但仍存在不同意見。
基因數(shù)量依據(jù)被分析的數(shù)據(jù)、利用的工具以及剔除錯(cuò)誤信息的標(biāo)準(zhǔn)而有所不同。最新計(jì)數(shù)利用了一個(gè)更大的數(shù)據(jù)集、另一種不同于此前努力的計(jì)算方法,以及定義基因的更寬泛標(biāo)準(zhǔn)。
Salzberg團(tuán)隊(duì)利用了基因型組織表達(dá)(GTEx)項(xiàng)目的數(shù)據(jù)。該項(xiàng)目對(duì)從幾百具尸體上采集的30多個(gè)不同組織的RNA進(jìn)行了測(cè)序。RNA是DNA和蛋白質(zhì)之間的“媒介”。研究人員想辨別出編碼蛋白質(zhì)的基因以及不編碼蛋白質(zhì)但仍在細(xì)胞中扮演重要角色的基因。為此,他們組裝了GTEx的9000億個(gè)微小RNA片段并將其同人類基因組進(jìn)行比對(duì)。
不過,僅一段DNA被表達(dá)為RNA并不意味著它是一個(gè)基因。為此,該團(tuán)隊(duì)嘗試?yán)酶鞣N標(biāo)準(zhǔn)過濾掉噪音。例如,他們將獲得的結(jié)果同來自其他物種的基因組進(jìn)行比較,并且推斷遠(yuǎn)親生物共享的序列可能在進(jìn)化過程中被保存下來,因?yàn)樗鼈兪怯杏玫模蛞部赡苋绱恕?/p>
研究人員獲得了21306個(gè)蛋白質(zhì)編碼基因和21856個(gè)非編碼基因——遠(yuǎn)多于兩個(gè)最廣泛使用的人類基因數(shù)據(jù)庫中的基因數(shù)量。由EBI維護(hù)的GENCODE基因集包括19901個(gè)蛋白質(zhì)編碼基因和15779個(gè)非編碼基因。由美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)管理的RefSeq數(shù)據(jù)庫擁有20203個(gè)蛋白質(zhì)編碼基因和17871個(gè)非編碼基因。
NCBI基因組研究人員、RefSeq 之前的負(fù)責(zé)人Kim Pruitt表示,出現(xiàn)這一差異的部分原因可能是Salzberg團(tuán)隊(duì)分析的數(shù)據(jù)量不同。不過,還有另外一個(gè)重要差異。GENCODE和RefSeq均依賴于人工管理——有人評(píng)審每個(gè)基因的證據(jù)并且作出最終判斷。Salzberg團(tuán)隊(duì)則完全依賴于計(jì)算機(jī)程序篩選數(shù)據(jù)。
“如果人們喜歡我們的基因目錄,那么或許幾年后我們將成為人類基因的仲裁者。”Salzberg說。
不過,很多科學(xué)家表示,他們需要更多證據(jù)以確信最新目錄是準(zhǔn)確的。協(xié)調(diào)GENCODE人工注釋工作的EBI計(jì)算生物學(xué)家Adam Frankish介紹說,他和團(tuán)隊(duì)已經(jīng)掃描了Salzberg團(tuán)隊(duì)辨別的約100個(gè)蛋白質(zhì)編碼基因。根據(jù)他們的估測(cè),僅有1個(gè)看上去是真正的蛋白質(zhì)編碼基因。
與此同時(shí),Pruitt小組分析了Salzberg團(tuán)隊(duì)公布的約十幾個(gè)新的蛋白質(zhì)編碼基因,但并未發(fā)現(xiàn)任何符合RefSeq標(biāo)準(zhǔn)的基因。一些同看上去屬于侵入人類祖先基因組的逆轉(zhuǎn)錄病毒的基因組區(qū)域重疊,剩下的則屬于極少被翻譯成蛋白質(zhì)的其他重復(fù)性片段。
不過,Salzberg認(rèn)為,一些重復(fù)序列可被視為基因。一個(gè)例子是出現(xiàn)在RefSeq 中并且編碼在結(jié)直腸癌中過度表達(dá)的蛋白質(zhì)的ERV3-1。Salzberg還承認(rèn),位于其團(tuán)隊(duì)目錄中的新基因有待該團(tuán)隊(duì)和其他人確認(rèn)。
《中國(guó)科學(xué)報(bào)》 (2018-06-26 第3版 國(guó)際)
來源:中國(guó)科學(xué)報(bào)