人工智能與生命醫(yī)學(xué)交叉再獲突破 西安交大團(tuán)隊(duì)提出基因注釋研究新方法
中新網(wǎng)西安3月13日電 (記者 阿琳娜)基因注釋是連接“測(cè)出基因組”和“讀懂基因組”的核心環(huán)節(jié),是基因組研究走向功能解析和應(yīng)用轉(zhuǎn)化的重要基礎(chǔ)。隨著國(guó)際大型基因組計(jì)劃持續(xù)產(chǎn)出海量數(shù)據(jù),如何實(shí)現(xiàn)高質(zhì)量基因注釋已成為后基因組時(shí)代亟待突破的重要瓶頸。傳統(tǒng)方法通常依賴RNA測(cè)序、同源蛋白等外部證據(jù),存在數(shù)據(jù)需求高、計(jì)算開銷大、對(duì)數(shù)據(jù)匱乏物種適用性受限等問題。
記者13日從西安交通大學(xué)獲悉,針對(duì)這一挑戰(zhàn),西安交通大學(xué)葉凱教授團(tuán)隊(duì)近日提出了一種基于混合專家架構(gòu)的深度學(xué)習(xí)基因注釋框架 ANNEVO。

據(jù)了解,ANNEVO圍繞“進(jìn)化異質(zhì)性建?!焙汀伴L(zhǎng)距離上下文建?!眱纱箨P(guān)鍵難題進(jìn)行設(shè)計(jì)。在模型架構(gòu)上,該方法首先在宏觀層面對(duì)不同生物大類群進(jìn)行區(qū)分,盡可能減少進(jìn)化距離較遠(yuǎn)物種之間的信號(hào)干擾;在類群內(nèi)部,則進(jìn)一步通過混合專家機(jī)制自動(dòng)學(xué)習(xí)不同亞類群特異性的基因結(jié)構(gòu)模式,從而增強(qiáng)模型對(duì)復(fù)雜生物多樣性和跨物種差異的適應(yīng)能力。與此同時(shí),ANNEVO引入長(zhǎng)距離上下文建模模塊,以適應(yīng)基因組序列中局部模式與全局模式并存的復(fù)雜特征:前者體現(xiàn)在剪接位點(diǎn)、起始和終止密碼子等短程保守信號(hào),后者則體現(xiàn)在遠(yuǎn)距離外顯子協(xié)同、長(zhǎng)基因結(jié)構(gòu)組織以及跨區(qū)域關(guān)聯(lián)等長(zhǎng)程依賴關(guān)系。
除在特征學(xué)習(xí)層面實(shí)現(xiàn)突破外,ANNEVO還在預(yù)測(cè)輸出階段融入了與基因結(jié)構(gòu)相關(guān)的生物學(xué)約束機(jī)制,在解碼過程中顯式考慮外顯子、內(nèi)含子、剪接位點(diǎn)、起始/終止密碼子以及閱讀框連續(xù)性等生物學(xué)規(guī)則,使模型不僅具備深度學(xué)習(xí)方法強(qiáng)大的模式提取能力,也兼顧了基因預(yù)測(cè)任務(wù)對(duì)生物學(xué)一致性的嚴(yán)格要求。
研究結(jié)果表明,該方法能夠同時(shí)建模不同生物類群之間的進(jìn)化規(guī)律以及基因組內(nèi)部的長(zhǎng)距離序列依賴關(guān)系,在無(wú)需RNA測(cè)序和同源蛋白等外部證據(jù)的情況下,僅依賴DNA序列即可實(shí)現(xiàn)高精度從頭基因注釋。該方法不僅在多個(gè)系統(tǒng)發(fā)育分支中展現(xiàn)出優(yōu)異的泛化能力,還可用于修正現(xiàn)有參考數(shù)據(jù)庫(kù)中的錯(cuò)誤注釋,為新基因組解析和參考注釋完善提供了新的技術(shù)路徑。

該研究表明,基因注釋正從高度依賴外部實(shí)驗(yàn)數(shù)據(jù)和人工規(guī)則的傳統(tǒng)范式,邁向更加智能化、自動(dòng)化的新階段。ANNEVO的提出,不僅為數(shù)據(jù)匱乏物種提供了切實(shí)可行的高質(zhì)量注釋方案,也為大規(guī)模生命基因組計(jì)劃提供了更具擴(kuò)展性的技術(shù)支撐。同時(shí),該成果打破了國(guó)外尤其是德國(guó)研究團(tuán)隊(duì)在該領(lǐng)域二十余年的技術(shù)主導(dǎo)局面,推動(dòng)中國(guó)在基因注釋核心方法上實(shí)現(xiàn)重要突破,進(jìn)一步增強(qiáng)了中國(guó)在智能基因組學(xué)關(guān)鍵技術(shù)領(lǐng)域的自主創(chuàng)新能力。
該研究對(duì)于服務(wù)國(guó)家生物安全戰(zhàn)略、推動(dòng)人工智能與生命科學(xué)深度交叉融合、提升中國(guó)在生命大數(shù)據(jù)核心技術(shù)領(lǐng)域的國(guó)際競(jìng)爭(zhēng)力具有重要意義。未來(lái),隨著模型在非編碼RNA、可變剪接等更復(fù)雜注釋任務(wù)中的進(jìn)一步拓展,ANNEVO有望在更廣泛的基因組功能解析場(chǎng)景中發(fā)揮作用。
相關(guān)成果以“Highly accurate ab initio gene annotation with ANNEVO”為題,于2026年3月12日在線發(fā)表于國(guó)際頂級(jí)期刊Nature Methods。西安交通大學(xué)電信學(xué)部自動(dòng)化學(xué)院博士生張鵬宇為該論文第一作者,葉凱教授為通訊作者。
葉凱教授團(tuán)隊(duì)表示,面向生命科學(xué)加速邁入“海量基因組數(shù)據(jù)”時(shí)代,推動(dòng)人工智能與基因組學(xué)深度融合、加快構(gòu)建自主可控的核心方法體系,已成為搶占生命科學(xué)前沿制高點(diǎn)的重要方向。研究團(tuán)隊(duì)長(zhǎng)期圍繞“人工智能驅(qū)動(dòng)基因組解析”開展系統(tǒng)性研究與技術(shù)布局。隨著相關(guān)研究持續(xù)推進(jìn),團(tuán)隊(duì)已逐步形成覆蓋基因組變異識(shí)別與基因功能注釋等關(guān)鍵環(huán)節(jié)的連續(xù)方法鏈條,并已在Darwin Tree of Life等國(guó)際旗艦基因組計(jì)劃中展現(xiàn)出重要應(yīng)用價(jià)值。(完)
社會(huì)新聞精選:
- 2026年03月16日 13:33:17
- 2026年03月16日 10:40:14
- 2026年03月16日 10:14:01
- 2026年03月16日 09:55:57
- 2026年03月16日 09:48:17
- 2026年03月16日 09:47:25
- 2026年03月15日 12:52:07
- 2026年03月15日 12:50:19
- 2026年03月15日 11:43:21
- 2026年03月15日 09:17:44













































京公網(wǎng)安備 11010202009201號(hào)