推廣 熱搜： 區(qū)域脈動(dòng)真空滅菌器醫(yī)院信息系統(tǒng) 醫(yī)院信息化醫(yī)院招標(biāo) 標(biāo)識(shí) CA認(rèn)證導(dǎo)視標(biāo)志

你到底有多少基因科學(xué)家公布人類基因數(shù)量引發(fā)爭(zhēng)議

日期：2018-06-27 瀏覽：78

核心提示：作者：宗華發(fā)布日期：2018-06-26 　　在人類基因組項(xiàng)目完成十多年后，辨別基因仍是一項(xiàng)挑戰(zhàn)

作者：宗華發(fā)布日期：2018-06-26

　　在人類基因組項(xiàng)目完成十多年后，辨別基因仍是一項(xiàng)挑戰(zhàn)。

圖片來源：Alan Phillips/Getty

　　估測(cè)人類基因組中基因數(shù)量的最早嘗試涉及喝醉酒的基因?qū)W家、美國(guó)紐約冷泉港的一個(gè)酒吧以及純粹的臆測(cè)。

　　那是2000年。當(dāng)時(shí)，人類基因組序列草圖仍在繪制中?；?qū)W家正在打賭人類擁有多少基因，賭注從幾萬個(gè)到幾十萬個(gè)不等。近20年后，掌握了真實(shí)數(shù)據(jù)的科學(xué)家仍無法就這一數(shù)量達(dá)成一致。在他們看來，這一知識(shí)鴻溝阻礙了發(fā)現(xiàn)相關(guān)疾病突變的努力。

　　填補(bǔ)這一空白的最新努力利用了來自上百個(gè)人類組織樣本的數(shù)據(jù)，并于日前發(fā)表在預(yù)印本服務(wù)器BioRxiv上。它包括近5000個(gè)此前未被發(fā)現(xiàn)的基因，其中近1200個(gè)攜帶制造蛋白質(zhì)的指令。2.1萬余個(gè)蛋白質(zhì)編碼基因的總數(shù)和此前估測(cè)（認(rèn)為這一數(shù)字在2萬左右）相比有大幅提高。

　　不過，很多遺傳學(xué)家仍不相信所有最新提出的基因都能經(jīng)得起仔細(xì)推敲。他們的批評(píng)強(qiáng)調(diào)了辨別新基因甚至定義一個(gè)基因的難度。

　　“20年來，人們一直致力于此項(xiàng)研究，但我們?nèi)晕传@得答案。”帶領(lǐng)團(tuán)隊(duì)開展最新研究的約翰斯·霍普金斯大學(xué)計(jì)算生物學(xué)家Steven Salzberg表示。

　　2000年，隨著基因組學(xué)界就有多少人類基因?qū)⒈话l(fā)現(xiàn)的問題展開熱烈討論，Ewan Birney發(fā)起了GeneSweep競(jìng)賽。如今身為歐洲生物信息學(xué)研究所（EBI）聯(lián)合所長(zhǎng)的Birney在一年一度的基因組學(xué)會(huì)議期間，在一間酒吧里最先下注。

　　這場(chǎng)競(jìng)賽最終吸引了1000多人參與以及3000美元的累積賭注。關(guān)于基因數(shù)量的賭注從多于31.2萬個(gè)到不足2.6萬個(gè)不等，平均在4萬左右。當(dāng)時(shí)，估測(cè)的數(shù)量范圍已經(jīng)縮小，但仍存在不同意見。

　　基因數(shù)量依據(jù)被分析的數(shù)據(jù)、利用的工具以及剔除錯(cuò)誤信息的標(biāo)準(zhǔn)而有所不同。最新計(jì)數(shù)利用了一個(gè)更大的數(shù)據(jù)集、另一種不同于此前努力的計(jì)算方法，以及定義基因的更寬泛標(biāo)準(zhǔn)。

　　Salzberg團(tuán)隊(duì)利用了基因型組織表達(dá)（GTEx）項(xiàng)目的數(shù)據(jù)。該項(xiàng)目對(duì)從幾百具尸體上采集的30多個(gè)不同組織的RNA進(jìn)行了測(cè)序。RNA是DNA和蛋白質(zhì)之間的“媒介”。研究人員想辨別出編碼蛋白質(zhì)的基因以及不編碼蛋白質(zhì)但仍在細(xì)胞中扮演重要角色的基因。為此，他們組裝了GTEx的9000億個(gè)微小RNA片段并將其同人類基因組進(jìn)行比對(duì)。

　　不過，僅一段DNA被表達(dá)為RNA并不意味著它是一個(gè)基因。為此，該團(tuán)隊(duì)嘗試?yán)酶鞣N標(biāo)準(zhǔn)過濾掉噪音。例如，他們將獲得的結(jié)果同來自其他物種的基因組進(jìn)行比較，并且推斷遠(yuǎn)親生物共享的序列可能在進(jìn)化過程中被保存下來，因?yàn)樗鼈兪怯杏玫模蛞部赡苋绱恕?/p>

　　研究人員獲得了21306個(gè)蛋白質(zhì)編碼基因和21856個(gè)非編碼基因——遠(yuǎn)多于兩個(gè)最廣泛使用的人類基因數(shù)據(jù)庫中的基因數(shù)量。由EBI維護(hù)的GENCODE基因集包括19901個(gè)蛋白質(zhì)編碼基因和15779個(gè)非編碼基因。由美國(guó)國(guó)家生物技術(shù)信息中心（NCBI）管理的RefSeq數(shù)據(jù)庫擁有20203個(gè)蛋白質(zhì)編碼基因和17871個(gè)非編碼基因。

　　NCBI基因組研究人員、RefSeq 之前的負(fù)責(zé)人Kim Pruitt表示，出現(xiàn)這一差異的部分原因可能是Salzberg團(tuán)隊(duì)分析的數(shù)據(jù)量不同。不過，還有另外一個(gè)重要差異。GENCODE和RefSeq均依賴于人工管理——有人評(píng)審每個(gè)基因的證據(jù)并且作出最終判斷。Salzberg團(tuán)隊(duì)則完全依賴于計(jì)算機(jī)程序篩選數(shù)據(jù)。

　　“如果人們喜歡我們的基因目錄，那么或許幾年后我們將成為人類基因的仲裁者。”Salzberg說。

　　不過，很多科學(xué)家表示，他們需要更多證據(jù)以確信最新目錄是準(zhǔn)確的。協(xié)調(diào)GENCODE人工注釋工作的EBI計(jì)算生物學(xué)家Adam Frankish介紹說，他和團(tuán)隊(duì)已經(jīng)掃描了Salzberg團(tuán)隊(duì)辨別的約100個(gè)蛋白質(zhì)編碼基因。根據(jù)他們的估測(cè)，僅有1個(gè)看上去是真正的蛋白質(zhì)編碼基因。

　　與此同時(shí)，Pruitt小組分析了Salzberg團(tuán)隊(duì)公布的約十幾個(gè)新的蛋白質(zhì)編碼基因，但并未發(fā)現(xiàn)任何符合RefSeq標(biāo)準(zhǔn)的基因。一些同看上去屬于侵入人類祖先基因組的逆轉(zhuǎn)錄病毒的基因組區(qū)域重疊，剩下的則屬于極少被翻譯成蛋白質(zhì)的其他重復(fù)性片段。

　　不過，Salzberg認(rèn)為，一些重復(fù)序列可被視為基因。一個(gè)例子是出現(xiàn)在RefSeq 中并且編碼在結(jié)直腸癌中過度表達(dá)的蛋白質(zhì)的ERV3-1。Salzberg還承認(rèn)，位于其團(tuán)隊(duì)目錄中的新基因有待該團(tuán)隊(duì)和其他人確認(rèn)。

　　《中國(guó)科學(xué)報(bào)》 (2018-06-26 第3版國(guó)際)

來源：中國(guó)科學(xué)報(bào)

更多>同類資訊中心

推薦圖文

走進(jìn)非洲中部研討會(huì)

推薦資訊中心

• 周口市婦幼保健院（周口市兒童醫(yī)院）2024年10至	• 新野縣人民醫(yī)院2024年9至10月政府采購意向
• 周口市眼科醫(yī)院(周口市第七人民醫(yī)院）2024年10	• 濮陽市第二人民醫(yī)院2024年10月政府采購意向
• 南陽醫(yī)學(xué)高等?？茖W(xué)校第二附屬醫(yī)院2024年10至12	• 西平縣人民醫(yī)院采購門診手術(shù)室彩超及3.0T磁共振
• 鄲城縣人民醫(yī)院新城院區(qū)腔鏡中心項(xiàng)目2024年10月	• 漯河市召陵區(qū)人民醫(yī)院2024年10至11月政府采購意
• 醫(yī)械的河鳴2025中部醫(yī)療器械行業(yè)迎新高峰論壇

你到底有多少基因 科學(xué)家公布人類基因數(shù)量引發(fā)爭(zhēng)議

你到底有多少基因科學(xué)家公布人類基因數(shù)量引發(fā)爭(zhēng)議