熱門資訊> 正文
2025-09-22 08:04
眾多投身生命科學的互聯網公司中,騰訊或是最先破局的那一個。
2025年的騰訊全球數字生態大會中,騰訊健康總裁吳文達對騰訊的生命科學解決方案進行了一次全方位的拆解。
整體架構方面,騰訊生命科學實驗室通過多尺度、多模態技術串聯,共同構建了從分子到細胞、組織再到系統的全棧研究體系,以「數據-算法-平臺」為主軸,形成覆蓋基礎研究、技術工具、應用落地的完整生態。
基礎能力方面,騰訊健康聚焦其存儲、算力、AI開發與應用,為生命科學行業提供「數智化解決方案」,並通過組學平臺 「AI模型倉庫」,整合來自騰訊生命科學實驗室的頂刊AI模型,以及開源和用户私有大模型,降低單細胞、基因組、蛋白質組等全鏈條研究的技術門檻。
成果輸出方面。「雲深智藥」平臺可加速藥物發現和優化,利用AI預測蛋白質三維結構,生成新的小分子或抗體分子,全面加速藥物的篩選和優化。
完整鏈路之下,這套體系現已鏈接起數千個製藥人員,協作多家藥企提速藥物設計。當AI成為藥企數字化變革中的必答題,騰訊或許面臨一個新的千億級機遇。
01 在單細胞測序中率先引入大模型
早在2022年,騰訊生命科學實驗室便率先在單細胞測序領域構建大語言模型scBeat。該模型基於BERT範式,可將細胞中基因的表達信息轉化成可被計算機理解、學習的「語言」,並對細胞進行精準標註,分析出基因之間的複雜關係。
相關研究最終被國際頂級學術期刊《Nature Machine Intelligence》收錄。據騰訊生命科學實驗室首席科學家姚建華介紹:該模型在預訓練階段通過大規模無標註訓練數據學習通用的基因和表達編碼,可有效提升模型的魯棒性與泛化能力。此外,基於少量數據微調,騰訊生命科學實驗室有效提升模型的準確性。
進入空間蛋白組學時代后,騰訊生命科學實驗室同樣迅速在此領域推出AI工具。
細胞類型註釋是「蛋白空間表達信息」與「生物學功能解讀」 的核心橋樑。在進行空間蛋白組學研究前,研究者必須先全面註釋空間轉錄組數據的細胞類型,保障蛋白質表達數據與具體細胞功能、組織微環境作用或疾病機制關聯。但傳統工具能力有限,研究人員需要能有效降維且對數據噪聲具有穩健性的高性能註釋方法,Spatial-ID 應運而生。
「爲了解決上述問題, 我們首先採用遷移學習的方法,把單細胞的模型遷移到空間組學上,再利用AI中編碼器的方法來編碼它的基因和空間的信息。最后,我們構建了Spatial-ID這個模型分析新的空間組學數據。」姚建華在演講中談到。
據相關實驗統計,Spatial-ID的細胞類型註釋速度較傳統方法高出百倍,準確度提升20%,還同期解決了數據缺失和批次效應的問題。
在四個不同的空間轉錄組公開數據集上開展的基準測試中,Spatial-ID 與現有8種先進方法(Seurat、SingleR 等)進行性能對比,最終在各數據集的分析上均取得了顯著優於其他方法的準確性。
例如在小鼠初級運動皮層數據集上,Spatial-ID達到了92.75%的平均準確率;在小鼠下丘腦視前區的三維空間轉錄組數據集上,其細胞類型註釋平均準確性比最佳的SOTA方法提升了約 6.5%。
爲了進一步推動空間蛋白組學的發展,姚建華等研究員還收集和整理了業界規模最大的空間組學數據集SODB(Spatial Omics DataBase),現已收錄了約5億個細胞,總數據量超過1T,同時提供完整的數據分析和可視化的流程。
總的來説,騰訊在生命科學領域的持續突破,不僅推動基礎科研效率與精度革新,也為解析生命機制、探索疾病奧祕提供關鍵工具,已在一定程度上帶動相關行業向前躍進。
02 平臺化思維重構AI新葯研發
相較於生命科學,騰訊在AI新葯研發方向入局更早,相關落地成果也更為多元。
騰訊AI製藥技術負責人劉偉在會上講述了騰訊開發製藥大模型的邏輯,他認為:「藥物研發涉及小分子、抗體、ADC、核苷酸藥物及疫苗等多模態需求,因而需要聚焦原子層級,構建底層統一大模型。通過深入研究原子作用力與原子凝聚體結構,騰訊健康讓模型可適配上層各類藥物研發場景,為不同模態藥物研發提供基礎支撐。」
在結構預測方面,騰訊的原子級大模型已初露鋒芒。以抗體人源化改造為例,傳統模型依賴序列及上層數據訓練,難以捕捉微小變化帶來的影響,而騰訊的大模型能感知原子變化引發的結構、作用力及分子間相互作用的改變等,提升合成抗體成功率,並保證其具備高結合親和力。
進一步談DNA和蛋白質結構預測。AlphaFold3等主流工具雖能預測 DNA 雙螺旋結構,但在溝槽結構、捲曲角度等關鍵參數上與真實結果差異較大,無法滿足高要求應用場景。面對這一缺陷,騰訊結合原子層面大模型與分子動力學模擬等計算方法,大幅提升了從序列或結構預測結構的效果,該成果已應用於核酸藥物研發,並可擴展到 RNA 相關領域。
在大模型應用實踐中,騰訊已經通過多個案例驗證了其AI能力。
在AI 預測抗體藥物篩選方向上,傳統方法通過免疫動物、提取抗體后進行生物膜干涉實驗篩選,成本高昂。相較之下,騰訊從抗體序列建模入手,利用AI預測抗體與抗原的結合能力及親和力,第二輪篩選通過聚類相似序列進一步減少實驗環節,最終正確率會比傳統的ELISA提升3-5倍,研發成本降低超過40%。
此外,騰訊還自研了大語言模型驅動的抗生素耐藥性數據庫MdrDB。該數據庫不僅收錄的菌類分佈、全球主要致死耐藥性細菌致因數據與世界衞生組織公佈結果高度一致,還具備耐藥機制解析、突變模式揭示等能力,能夠助力新靶點的發現與抗菌藥物的研發,可為流感、新冠等疾病的未來演化預判及藥物研發提前規劃提供有力支持。
03 趕上創新葯爆發的風口
回顧生命科學與製藥領域中的佈局之外,騰訊似乎在這兩個前沿領域找到了它熟悉的B端打法——聚焦於搭建平臺化的覆蓋臨牀前新葯研發全流程的AI工具,進而構建其獨有的創新葯生態體系。
相較於躬身入局,這一邏輯顯然能夠更好地發揮體系之中個角色的比較優勢,以低於行業的平均研發成本搶奪行業先機。
2024年,中國創新葯企業憑藉爆發式出海迅速完成投資變現,全年創新葯交易總金額高達3630.98億元,並在2025年延續着增長的趨勢。
風口之下,騰訊的這套佈局或將率先助其實現AI在生物製藥的工業轉化,甚至有望形成一個全新的收入增長極。