熱門資訊> 正文
2026-05-12 17:37
來自倫敦瑪麗女王大學、劍橋大學等上百家院校和研究機構的團隊公佈了一項迄今為止全球規模最大的多隊列蛋白質基因組學研究,依託涵蓋 38 個獨立研究隊列、共計 78,664 名受試者的大規模蛋白質基因組薈萃分析,系統鑑定出 24,738 個蛋白質數量性狀位點並關聯 1,116 種循環蛋白,全面揭示了蛋白水平存在廣泛的鄰近及遠距離遺傳調控特徵。
人類基因組就像一本完整的生命説明書,記錄着長相、身高、體質、疾病風險等所有遺傳信息。但説明書的解密過程並不是按部就班的,期間很可能出現多種「小意外」,其中就包括讓人容易患某種疾病的致病變異。更棘手的是,大多數致病變異位於基因組中「不直接編碼蛋白質」的非編碼區域,這種到底是哪個基因、通過什麼機制致病的「黑箱機制」嚴重限制了人們對致病基因和機制的推斷。而作為將基因功能付諸實現的直接執行者,人體血液中循環流動的數千種蛋白質,是解開黑箱機制、連接非編碼變異與疾病相關機制的關鍵。
目前,蛋白質基因組學研究已在臨牀發病機制與潛在藥物靶點方面取得重要進展,但想要系統性、規模化應用於人類生物學仍尚存侷限。首先,過去研究幾乎完全聚焦於近端順式作用變異(即順式蛋白質數量性狀位點,cis-pQTL),而非編碼變異可能定位於調控區域,即可直接影響鄰近多個編碼基因,也可遠距離間接調控基因組其他位置基因所編碼的蛋白質;其次,過去對於影響疾病診斷、預后的蛋白生物標誌物的多基因遺傳結構研究尚存不足;最后,想要穩定、可泛化地鑑定蛋白質數量性狀位點,需要在不同人群中開展重複驗證,而目前廣譜蛋白質組學領域極少開展此類人群驗證研究。
針對於此,來自倫敦瑪麗女王大學、劍橋大學等上百家院校和研究機構的團隊公佈了一項迄今為止全球規模最大的多隊列蛋白質基因組學研究,依託涵蓋 38 個獨立研究隊列、共計 78,664 名受試者的大規模蛋白質基因組薈萃分析(meta-analysis),系統鑑定出 24,738 個蛋白質數量性狀位點並關聯 1,116 種循環蛋白,全面揭示了蛋白水平存在廣泛的鄰近及遠距離遺傳調控特徵。
通過機器學習進一步解析調控循環蛋白丰度的關鍵通路、細胞類型與組織來源,明確 N-糖基化在蛋白調控網絡中的核心作用。另外,區分蛋白順式和反式遺傳調控差異,可有效闡釋不同生物學表型的內在機制,這為某些疾病篩選潛在的蛋白藥物靶點提供了證據,進一步藉助反式位點三角關聯分析,更深層次地挖掘出了「老藥新用」的依據。
相關研究成果以「Multi-cohort proteogenomic analyses reveal genetic effects across the proteome and diseasome」為題,發表於 Cell。
研究亮點:
* 迄今為止全球規模最大的多隊列蛋白質基因組學研究,涵蓋 38 個獨立研究隊列、共計 78,664 名受試者參與
* 鑑定出 24,738 個蛋白質數量性狀位點並關聯 1,116 種循環蛋白,全面揭示蛋白水平存在廣泛的鄰近及遠距離遺傳調控特徵
* 從遺傳層面系統闡述了循環蛋白的調控規律,為解析人類疾病分子機制、挖掘創新治療靶點及開展藥物重定位研究提供了重要理論依據和數據資源
論文地址:https://www.cell.com/cell/fulltext/S0092-8674(26)00385-5
本次研究為全球最大規模的多隊列蛋白質基因組學薈萃分析,整合 38 個國際隊列,覆蓋 78,664 名歐洲血統受試者,基於 Olink 高通量蛋白質組技術檢測匯總后的 1,161 個血液蛋白靶點,最終鑑定出 24738 個精細定位 pQTL(包含 5,040 個 cis-pQTL 和 19698 個 trans-pQTL ),獲得 1,116 個有效蛋白的遺傳調控數據。
研究概述
SCALLOP meta-analyses:包括 37 個隊列、1,194 個血液蛋白靶點的全基因組統計數據,這些受試者以歐洲血統為主。對於這些數據,基於抗體的蛋白質組學檢測均採用 Olink 提供的 13 種 Target-96 檢測面板中的至少一種完成,每種面板可檢測 92 個蛋白靶點,涵蓋心血管、免疫、炎症、神經、新陳代謝等相關領域。
UK Biobank(UKBB):包括 48,017 名歐洲血統受試者。對於這部分數據,研究使用的蛋白質組學測量是通過 Olink Explore 1536 平臺生成的,同樣利用基於抗體的技術,測量了 1,463 個蛋白質靶點。
在本次研究中,運用機器學習模型的核心目的在於系統地為所有位於主要組織相容性複合體(MHC)區域外的 trans-pQTL 自動、準確、大規模地分配「效應基因」,以解決長期以來難以將遠端基因組區域中的效應基因定位到與血液蛋白水平相關的蛋白質數量性狀位點上這一挑戰。針對於此,受到 ProGeM 架構啓發,研究人員構建了一個分階段機器學習分類器。
首先,就特徵與註釋來源,研究人員為每個遺傳變異或其替代變異體(r² > 0.6)整合了多維度生物學與基因組學註釋,變異層面註釋包括 1 Mb 鹼基窗口內變異與基因體的距離、基於變異效應預測(VEP)工具推斷的潛在功能影響。
同時,針對 1 Mb 鹼基窗口內的每個基因進行基因層面的註釋,包括獲取基於 GTEx v8 蛋白丰度-基因表達 QTL 共定位的相關證據、稀有變異負荷關聯、利用 OmnipathR 3.10.1 版本程序包梳理文獻資料並判斷是否有反式基因編碼順式蛋白對應的配體-受體/蛋白複合物、基於 KEGG/REACTOME 註釋信息判斷相關基因是否參與同一生物學通路。
然后,繼續構建機器學習模型所需的訓練集,由於缺乏廣泛應用的基因分配金標準變體,研究人員利用先前的生物學和基因組學知識,獲得了三組部分獨立的「推定真陽性(PTP)」集合,每組 PTP 集合內的位點僅保留一個順式蛋白避免偏倚,1 Mb 窗口內其他基因為陰性樣本。具體包括編碼配體-受體對或與順式蛋白形成高置信度蛋白複合物的反式基因(n = 540)、映射到功能變異的哨兵 trans-pQTL(n = 1747),以及具有顯著稀有變異負荷的反式基因(n = 1049)。隨后按基因組區域以 7:3 劃分出訓練集和測試集,重複 10 次以保證穩定性。
再者,關於模型架構與訓練流程,本研究中模型算法採用隨機森林分類器(Random Forest),通過輸入 10 組訓練集執行重複 3 折交叉驗證並結合子採樣策略,從而在訓練過程中處理數據集不平衡問題。模型訓練基於 R 語言 caret v6.0.94 工具包實現,然后通過 Kappa 分數篩選評估篩選出每組訓練集中表現最優的隨機森林模型。
之后利用每組假定真陽性數據集對應的 10 個隨機森林分類器,為全部 trans-pQTL 的候選效應基因逐一打分。先取同一假定真陽性數據集下 10 個分類器評分的中位數,再將三組預測評分進行累加。同時,在構建各假定真陽性數據集的的分類模型時,剔除用於定義真陽性樣本的特徵變量。
最終,三組分類模型均表現出穩定可靠的性能,Kappa 係數中位數區間為 0.54-0.57。
本次研究基於 38 個國際隊列、覆蓋 78,664 名受試者,針對 1,161 個血液蛋白靶點開展多隊列蛋白質基因組薈萃分析,系統闡釋了循環蛋白水平的遺傳調控模式及其與疾病的關聯。
研究共鑑定出 14,690 個區域哨兵變種,經貝葉斯精細定位得到 24,738 個獨立可信變異集,涵蓋 5,040 個 cis-pQTL 與 19,698 個 trans-pQTL,覆蓋 1,116 個蛋白靶點。其中,87.1% 的蛋白存在 cis-pQTL,94.1% 的蛋白存在 trans-pQTL;82.3% 的 cis-pQTL 與 83.3% 的 trans-pQTL 為高置信度位點,包含 278 個 cis-pQTL 與 4,013 個 trans-pQTL 新發現位點。同時,在非歐洲血統隊列中,已鑑定位點的效應量與歐洲隊列呈現中等程度相關,r = 0.6,這驗證了結果的跨人群穩健性。
SCALLOP 和 UKBB 薈萃分析中精細定位的蛋白質數量性狀位點
另外,遺傳位點對血液蛋白水平的變異解釋度存在着顯著差異,cis-pQTL 平均解釋 8.4% 的蛋白變異,顯著高於 trans-pQTL;然而如 ICAM2、FUCA1 等蛋白主要受 trans-pQTL 的調控,其變異解釋度分別達到 52.7% 和 68.4%,而 cis-pQTL 僅解釋 0.3% 和 6.3%。
另外進一步觀察 261 個蛋白質靶標,其 pQTL 變異解釋度與多基因遺傳力無顯著線性關聯,這表明該研究可能已經對這些蛋白的 pQTL 鑑定已近飽和。
基於零膨脹泊松迴歸模型與 pQTL 存在和數量相關的蛋白質特徵
含二硫鍵、跨膜結構域的蛋白,對應的 pQTL 數量顯著更多,可能解釋了這些蛋白更容易被遺傳調控的原因;而蛋白編碼基因的功能約束強度與 cis-pQTL 數量則呈現顯著負相關。
具有較高 trans-pQTL 數量的蛋白顯著富集分泌型蛋白特徵,如糖基化、硫酸化,但缺失鋅指結構、DNA 結合結構域等胞內蛋白特徵,表明循環蛋白的遠程遺傳調控與分泌通路密切相關。
基於在機器學習框架中整合先驗生物學知識,為超過半數的 trans-pQTL (n = 11,261)鑑定出至少一箇中等置信度的效應基因,其中 1,534 個為高置信度分配;對三分之二的位點(n = 13,881),候選評分在各基因中的分佈表明單一因果基因是最可能的致病基因。
trans-pQTL 的效應基因分析
功能富集分析顯示,反式效應基因顯著富集於「天冬醯胺 N-糖基化」通路(涉及 143 個蛋白質靶點)、血小板活化(涉及 41 個蛋白質靶點)等,其中 N-糖基化為最常見、最核心的調控通路。
細胞與組織富集結果表明,反式效應基因主要在肝細胞、自然殺傷細胞、內皮細胞、二型肺泡細胞中高表達,揭示肝臟與免疫細胞是循環蛋白遠程調控的關鍵場所。44 個蛋白質-組織對與 76 個蛋白-細胞類型對為非經典分泌來源,證實跨器官通訊在蛋白穩態調控中的重要作用。
在所有識別的獨立 pQTL 中,有 43.4% 存在多效性,且 trans-pQTL 的多效性顯著高於 cis-pQTL。隨后研究將多效性遺傳變異分為「分子多效性」、「表型多效性」和「非特異性多效性」三類,其中超半數(533 箇中的 332 個)表現出表型多效性,尤其在肝細胞中的表達增強了 2 倍,且優先通過蛋白複合物、配體-受體互作、通路協同方式調控靶蛋白。
分子水平與全表型組水平的多效性
285 個多效性 pQTL 與疾病 GWAS 位點重疊,其關聯蛋白顯著富集於特定通路,為疾病 GWAS 位點的機制解析提供了新線索。
研究人員將鑑定的 300 個 cis-pQTL 驅動的蛋白-疾病關聯,與 FinnGen 項目中超 700 種疾病數據集相結合, 僅有 73 個既獲得孟德爾隨機化(MR)又獲得遺傳風險信號的統計共定位分析,這表明了在對疾病潛在候選致病基因進行遺傳優先級排序時,需要互補性證據。
在可評估的 115 個關聯中,31 個呈現順式與反式調控效應方向一致,41 個無支持證據,14 個效應方向相反,表明順式近端調控與反式遠端調控對疾病表型的影響存在顯著差異。
整合 UKBB 多達 52,164 名受試者觀察性數據,以及泛生物庫 129 萬余人遺傳數據,覆蓋 517 種疾病。在 193 個高置信度遺傳關聯中,僅 52 個在觀察性研究中得到方向一致的支持;52,887 個觀察性顯著關聯中,僅 0.06% 獲得遺傳證據支持。其中,血液 furin 蛋白是少數在遺傳與觀察性研究中均一致關聯高血壓、心肌梗死、房顫的靶點,揭示了其潛在的藥物開發價值。
超過 90% (307 種疾病中 280 種)的疾病蛋白標誌物特徵顯著富集於 trans-pQTL 關聯蛋白,證實反式調控是疾病蛋白標誌物的核心遺傳基礎。研究發現,TYK2 基因錯義突變 rs34536443 作為trans-pQTL,調控 BST2、CXCL9/10/11 等多個炎症蛋白,這些蛋白水平升高與類風濕關節炎、銀屑病、自身免疫性甲狀腺炎風險增加有關,為 TYK2 抑制劑用於自身免疫性疾病的重定位提供了遺傳證據。
本研究依託全球最大規模的多隊列蛋白質基因組學分析,系統解析了人類循環蛋白質組的遺傳調控規律,突破了過往僅聚焦順式調控的研究侷限,首次在大樣本水平全面揭示反式遺傳調控在循環蛋白丰度調控中的關鍵作用,並通過機器學習精準定位效應基因,明確 N - 連接糖基化、血小板生物學等核心通路,以及肝臟、免疫細胞等關鍵調控場所。
儘管本研究尚存在一些侷限,比如蛋白質組技術僅覆蓋循環蛋白的部分亞型與翻譯后修飾、主體為歐洲血統人群,需擴展到更多族群等,但仍舊搭建起非編碼遺傳變異 — 循環蛋白 — 疾病機制的完整關聯框架,不僅為複雜疾病的分子機制解析提供了全新視角,更通過遺傳證據錨定血漿 furin、TYK2 等關鍵靶點,為創新葯物研發與老藥新用提供了高可信度的遺傳依據,推動蛋白質基因組學從基礎發現向臨牀轉化邁出關鍵一步。
本文來自微信公眾號「HyperAI超神經」,作者:哇塞,36氪經授權發佈。