發(fā)布日期:2018-10-09
基因組測序工作完成后,哪些基因能翻譯蛋白、能翻譯哪些蛋白,一直是生命科學(xué)研究的熱點(diǎn)和難點(diǎn)。近日,中國科學(xué)院水生生物研究所葛峰學(xué)科組在這一問題上取得突破性進(jìn)展,相關(guān)研究成果于近日在線發(fā)表于國際期刊《分子植物》上。
據(jù)了解,該研究團(tuán)隊(duì)利用蛋白質(zhì)基因組學(xué),對三角褐指藻的基因組進(jìn)行了深度注釋,構(gòu)建出其蛋白質(zhì)組精細(xì)圖譜,對此前的注釋信息做了大量的修正與補(bǔ)充。更為矚目的是,該團(tuán)隊(duì)在實(shí)驗(yàn)中建立的一套實(shí)驗(yàn)流程和分析軟件,可適用于已完成基因組測序的所有生物,為基因組的解讀提供了重要工具。
破譯核苷酸長序列這本“無字天書”
基因組測序得到的是一本寫有核苷酸長序列的“無字天書”。哪一小段序列構(gòu)成一個(gè)基因,這個(gè)基因能否指導(dǎo)合成蛋白、能合成哪些蛋白,在這本“書”上是找不到答案的。要回答以上問題,就需要科學(xué)家們做進(jìn)一步的注釋。
以往的注釋工作,多是從生物信息學(xué)的角度進(jìn)行。這是通過算法計(jì)算來預(yù)測能翻譯蛋白的基因(也稱編碼基因),以及它們各自在基因組中的位置,但這種方法會遺漏許多編碼基因,或?qū)蜃龀鲥e(cuò)誤的注釋。
隨著蛋白質(zhì)組學(xué)的發(fā)展,一種利用蛋白質(zhì)組數(shù)據(jù)對基因組進(jìn)行深度注釋的研究方向悄然興起。具體來說,就是提取生物細(xì)胞內(nèi)所有的蛋白質(zhì),通過質(zhì)譜分析法得到每個(gè)蛋白的氨基酸序列,再在計(jì)算機(jī)上將其與基因組序列進(jìn)行大量比對,反推出各編碼基因的精確位置。
“眼見為實(shí)自然比基于運(yùn)算推測來得可靠。”據(jù)該研究成果的第一作者楊明坤介紹,這次實(shí)驗(yàn)不僅為許多已知的編碼基因如何在蛋白質(zhì)水平上表達(dá)提供了證據(jù)支持,還發(fā)現(xiàn)了606個(gè)新的編碼基因,其中有56個(gè)在此前被錯(cuò)誤預(yù)測為非編碼基因,另有506個(gè)編碼基因的錯(cuò)誤注釋得到校正。
此外,能解析蛋白質(zhì)翻譯后修飾現(xiàn)象,是蛋白質(zhì)基因組學(xué)的另一優(yōu)勢。通過20種氨基酸合成的蛋白質(zhì),通常要再經(jīng)過一道加工工序,才能成為具備某種功能的成熟蛋白,而加工的類型往往是多樣的。這就意味著,相同的氨基酸序列,可能會形成不同種類的成熟蛋白。此次研究發(fā)現(xiàn)的20多種蛋白質(zhì)翻譯后修飾,就是這一優(yōu)勢的佐證。
一款軟件十一套實(shí)驗(yàn)流程即可獲得深度注釋信息
如何將蛋白質(zhì)組圖譜描畫得更精細(xì)、對深奧的基因組信息注釋得更詳盡,一直以來都是蛋白質(zhì)基因組學(xué)的一大難題。而此次研究在可變剪切體的完善上有了新的突破。可變剪切是指基因在轉(zhuǎn)錄過程中,“剪”去某幾段序列,并將剩下的序列打亂重組的過程。同一基因,不同的剪切位點(diǎn)和排列方式,會形成不同的蛋白質(zhì)。
楊明坤在接受科技日報(bào)采訪時(shí)表示,此前的研究都是通過鑒定相應(yīng)蛋白質(zhì)的存在,去驗(yàn)證已知的可變剪切體。而這次他們做的工作,是去發(fā)現(xiàn)未知的可變剪切體。
“我們設(shè)計(jì)相關(guān)算法,尋找蛋白的氨基酸序列上可能存在的不同剪切位點(diǎn),再將剪切得到的‘斷片’與基因組數(shù)據(jù)比對,從而找到相應(yīng)的可變剪切體。”楊明坤說。據(jù)悉,該團(tuán)隊(duì)共發(fā)現(xiàn)21個(gè)新的可變剪切體,并修正了73個(gè)已知基因的可變剪切位點(diǎn)。
對基因組的深度注釋涉及大量的運(yùn)算,為提高工作效率,該團(tuán)隊(duì)將各個(gè)步驟運(yùn)用到的算法整合起來,研發(fā)出一款適用于所有生物的數(shù)據(jù)分析軟件。運(yùn)用這款軟件,只需輸入質(zhì)譜儀采集的質(zhì)譜數(shù)據(jù)和簡單的軟件運(yùn)行參數(shù),就能直接得到相關(guān)的基因組注釋信息。此外,團(tuán)隊(duì)還建立了一套實(shí)驗(yàn)流程,供其他科學(xué)家參考。這也意味著,今后可直接依葫蘆畫瓢,用團(tuán)隊(duì)的這套流程和軟件,快速完成其他物種的基因組深度注釋。
楊明坤表示,研究小組將進(jìn)一步優(yōu)化軟件,繼續(xù)提高其運(yùn)算速度和準(zhǔn)確率。“由于2014年完成的人類蛋白質(zhì)組草圖有太多錯(cuò)漏,我們準(zhǔn)備進(jìn)一步完善這項(xiàng)工作。只有清楚了人體各個(gè)組織內(nèi)都有哪些蛋白質(zhì),在此基礎(chǔ)上才能更好地進(jìn)行精準(zhǔn)醫(yī)療。”楊明坤說。(實(shí)習(xí)生 劉雨亭)
來源:科技日報(bào)