摘要: 到目前為止,還無法解釋大約一半罕見遺傳性疾病的病因。
到目前為止,還無法解釋大約一半罕見遺傳性疾病的病因。慕尼黑的一個研究小組開發了一種算法,可以預測基因突變對RNA形成的影響,比以前的模型精確6倍。因此,可以更準確地確定罕見遺傳疾病和癌癥的遺傳原因。
基因序列的變異發生得相對頻繁——平均而言,一個人的基因組中每一千個核苷酸中就有一個受到影響。在極少數情況下,這些變化會導致有缺陷的rna,從而導致無功能的蛋白質。這可能導致個別器官功能障礙。如果懷疑一種罕見疾病,計算機輔助診斷程序可以幫助尋找可能的遺傳原因。具體來說,可以使用算法分析基因組,以找出罕見的遺傳變異與身體特定部位的功能障礙之間是否存在聯系。
跨學科研究項目
在慕尼黑工業大學(TUM)計算分子醫學教授、慕尼黑亥姆霍茲計算分子醫學研究小組負責人Julien Gagneur的領導下,來自信息學和醫學系的一個跨學科團隊開發了一種新的模型,該模型比以前的模型更能預測哪些DNA變異會導致錯誤形成的RNA。
圖1 一種新的模型能更好地預測哪些DNA變異會導致錯誤形成的RNA
Holger Prokisch博士說:“使用現有的DNA分析方法可以對大約一半的患者做出可靠的診斷。"Holger Prokisch博士是該研究的合著者,也是慕尼黑工業大學和亥姆霍茲慕尼黑大學人類遺傳學研究所的組長。“剩下的,我們需要模型來改進我們的預測。我們新開發的算法可以為此做出重要貢獻。"
模型的重點是拼接
在他們的研究中,研究人員考慮了影響DNA轉化為RNA過程的遺傳變異,并最終以組織特異性的方式形成蛋白質。研究的重點是剪接——細胞中的一個過程,在這個過程中,RNA被切割成一種可以稍后讀取蛋白質構建指令的方式。如果DNA發生變異,這一過程就會被打亂,導致從RNA上切割的DNA要么過多,要么過少。剪接過程中的錯誤被認為是不正確的蛋白質形成和遺傳性疾病的最常見原因之一。
比以前的研究要精確得多
該團隊利用現有的數據集,以便能夠對特定組織中遺傳變異和剪接功能障礙之間的可能關聯做出陳述。這些數據集包含來自946個人的49個組織的DNA和RNA樣本。
與之前的研究相比,研究小組最初考慮了每個樣本,看看DNA變異導致的錯誤剪接是否以及在多大程度上通常通過剪接功能障礙在某些組織中表現出來。例如,一種蛋白質可能與心臟的特殊區域有關,而它可能在大腦中沒有功能。
“為此,我們創建了一個組織特異性剪接圖,其中我們量化了RNA上的哪些位置對給定組織中的剪接很重要。由于我們的方法,我們能夠將我們的模型限制在生物學相關的背景下。我們使用的皮膚和血液樣本使我們能夠得出關于難以到達的組織的結論,例如大腦或心臟,"該研究的主要作者、TUM計算分子醫學主席的博士生尼爾斯瓦格納說。
圖2 研究設計和主要發現
在分析中,每個基因至少有一種罕見的遺傳變異,并且與蛋白質的形成有關。除了RNA上的蛋白質編碼部分,還有一些部分對我們細胞中的其他過程很重要。這項研究沒有考慮到這些因素。這導致了總共近900萬個罕見的遺傳變異被研究。
“由于我們新開發的模型,與以前的模型相比,我們能夠將預測錯誤拼接的精度提高六倍。在召回率為20%的情況下,以前的算法達到了10%的精度。我們的模型在相同的召回率下達到了60%的精度,"Julien Gagneur教授說。
精確率和召回率是預測模型有效性的重要指標。這種精確度表明,該模型預測的基因變異中有多少實際上導致了錯誤的剪接。召回顯示了有多少導致錯誤剪接的遺傳變異突變被該模型恢復。
Julien Gagneur教授說:“我們通過以組織特異性的方式觀察剪接過程,并通過使用易于接近的組織(如血液或皮膚細胞)的直接剪接測量來預測心臟或大腦等不可接近組織的剪接錯誤,從而在精度上取得了如此大的進步。"
算法的實際應用
該模型被用作歐洲研究項目“解決-研發-解決未解決的罕見疾病"的一部分。該倡議的目標是通過廣泛的知識交流來改善罕見病的診斷結果。TUM的研究小組已經分析了來自6000個受影響家庭的2萬個DNA序列。
此外,該模型應該使將來更容易找到各種形式的白血病的遺傳診斷成為可能。為此,研究人員目前正在檢查來自白血病患者的4200個DNA和RNA樣本。
進一步的信息
Julien Gagneur教授于2016年來到TUM擔任助理教授。2020年,他接任計算分子醫學主席。他的研究是基于基因調控的遺傳基礎及其對疾病的影響,使用統計算法和機器學習。他也是亥姆霍茲慕尼黑大學的研究小組負責人。
Julien Gagneur教授與TUM和Helmholtz Munich人類遺傳學研究所的組長Holger Prokisch一起,正在制定確定遺傳疾病原因的策略。
參考資料:
[1] Aberrant splicing prediction across human tissues