Nat Mach Intell | “數(shù)據(jù) + 知識 + AI”解鎖新靶標藥物虛擬篩選

文章來源:上海藥物研究所  |  發(fā)布時間:2024-06-11  |  【打印】 【關閉

  

2024年6月6日,中國科學院上海藥物研究所鄭明月課題組在Nature Machine Intelligence期刊發(fā)表題為“Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling”的研究論文。團隊利用等變圖神經(jīng)網(wǎng)絡來整合蛋白質-配體相互作用相關的物理先驗知識,并且使用多種數(shù)據(jù)增強、數(shù)據(jù)去冗余策略來避免模型過擬合潛在的數(shù)據(jù)分布偏差,最終構建了一種通用蛋白質-配體相互作用評分方法EquiScore。在藥物虛擬篩選場景和先導化合物優(yōu)化場景中,EquiScore對訓練未見的新靶標表現(xiàn)出了良好的泛化性能。此外,EquiScore的可解釋性分析為基于結構的藥物設計提供了有價值的線索。?

精準的評估蛋白質-配體相互作用對藥物發(fā)現(xiàn)至關重要。然而,開發(fā)可靠的評估方法一直是學術界和工業(yè)界的長期挑戰(zhàn)。近年來,人工智能技術在該領域已經(jīng)取得了顯著進展,以AlphaFold為代表的深度學習方法在蛋白質三維結構,蛋白質-配體復合物結構預測方面表現(xiàn)卓越。然而,在新靶標的藥物虛擬篩選場景中,高精度的活性預測評分方法仍然非常匱乏。研究表明,深度學習模型傾向學習數(shù)據(jù)中的分布偏差,對分布內的數(shù)據(jù)可以給出很好的性能指標。但在實際應用中,尤其面對訓練集未見的新靶標和化學多樣性空間,卻無法展現(xiàn)出良好的泛化效果。

圖1. EquiScore 架構圖。a:構造異質圖引入物理先驗信息。b: 嵌入層。c: EquiScore層。d:任務層。e: 應用場景。

本研究主要從兩個方面來提高深度學習評分函數(shù)對新蛋白的預測能力。首先,科研人員收集了更多的陽性樣本,并使用重對接來生成更多樣的陽性樣本。同時,使用交叉蛋白對接,分子生成模型來生成更多具有欺騙性和多樣性的誘餌分子,以減少構建訓練數(shù)據(jù)集時可能出現(xiàn)的類似物偏差(analog bias)、數(shù)據(jù)分布偏差(data distribution bias)以及人工富集偏差(artificial enrichment bias)(見圖1)。其次,團隊提出了一種異質圖構建流程,可以通過引入新的節(jié)點和邊來整合分子間相互作用的物理先驗信息。同時,科研人員提出了一種信息感知注意力機制,用于整合不同信息中的相互作用,這些信息包括包括:(1) 等變幾何信息,(2) 化學結構信息,(3) 經(jīng)驗相互作用信息。研究人員通過使用新構建的數(shù)據(jù)集和等變異質圖網(wǎng)絡來訓練最終的評分模型 EquiScore。

圖2. 在DEKOIS2.0上對22種評分方法進行評估。a、d: AUROC,b、e: BEDROC (α = 80.5)和c、f: 5.0% EF。箱形圖中的藍色三角形代表每個箱子的平均值。所有方法按其平均值排序。

在訓練集中未見過的蛋白質上的虛擬篩選能力能夠更好的反映評分方法在實際應用中的泛化性能。為了進行充分的比較,科研人員選擇了21種不同的評分方法作為基準。最近報道的所有方法都是基于PDBbind數(shù)據(jù)集訓練得到的,該數(shù)據(jù)集與外部測試集具有高度的“軟重疊”,即很多蛋白都是在訓練過程中模型已經(jīng)見過的。為了進一步檢查這種數(shù)據(jù)泄漏是否會導致性能高估,作者將外部測試集涉及“軟重疊”的數(shù)據(jù)進行了去重,并對所有方法的結果進行重新評估。在DEKOIS2.0測試集上的分析結果顯示(圖2),EquiScore的排序能力和富集能力都排在第一或者第二。值得注意的是,當只考慮訓練過程中未見過的蛋白時,EquiScore 在所有的結果上都排在第一位。以上結果表明,在嚴格的測試下,EquiScore的綜合排序能力超過了現(xiàn)有的方法。此外,EquiScore對新蛋白的富集能力超過了傳統(tǒng)評分方法和深度學習方法。

同時,科研人員還在外部的先導化合物優(yōu)化數(shù)據(jù)集上比較了EquiScore與其它方法對結構類似物的活性排序能力;使用不同的對接方法生成蛋白-配體復合物結合構象,進一步評價EquiScore作為評分方法的魯棒性。最后,研究人員還分析了模型的可解釋性。

浙江大學與上海藥物所聯(lián)合培養(yǎng)博士研究生曹端華,國科大杭州高等研究院碩士研究生陳庚為本文的共同第一作者。上海藥物所鄭明月研究員為本文通訊作者。本研究得到了國家自然科學基金、國家重點研發(fā)計劃、上海藥物所與上海中醫(yī)藥大學中醫(yī)藥創(chuàng)新團隊聯(lián)合研究項目、中國科學院青年創(chuàng)新促進會會員項目、上海市科技重大專項資助。

原文鏈接:https://www.nature.com/articles/s42256-024-00849-z