Nat Mach Intell | “數(shù)據(jù) + 知識(shí) + AI”解鎖新靶標(biāo)藥物虛擬篩選
文章來源:上海藥物研究所 | 發(fā)布時(shí)間:2024-06-11 | 【打印】 【關(guān)閉】
2024年6月6日,中國科學(xué)院上海藥物研究所鄭明月課題組在Nature Machine Intelligence期刊發(fā)表題為“Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling”的研究論文。團(tuán)隊(duì)利用等變圖神經(jīng)網(wǎng)絡(luò)來整合蛋白質(zhì)-配體相互作用相關(guān)的物理先驗(yàn)知識(shí),并且使用多種數(shù)據(jù)增強(qiáng)、數(shù)據(jù)去冗余策略來避免模型過擬合潛在的數(shù)據(jù)分布偏差,最終構(gòu)建了一種通用蛋白質(zhì)-配體相互作用評分方法EquiScore。在藥物虛擬篩選場景和先導(dǎo)化合物優(yōu)化場景中,EquiScore對訓(xùn)練未見的新靶標(biāo)表現(xiàn)出了良好的泛化性能。此外,EquiScore的可解釋性分析為基于結(jié)構(gòu)的藥物設(shè)計(jì)提供了有價(jià)值的線索。?
精準(zhǔn)的評估蛋白質(zhì)-配體相互作用對藥物發(fā)現(xiàn)至關(guān)重要。然而,開發(fā)可靠的評估方法一直是學(xué)術(shù)界和工業(yè)界的長期挑戰(zhàn)。近年來,人工智能技術(shù)在該領(lǐng)域已經(jīng)取得了顯著進(jìn)展,以AlphaFold為代表的深度學(xué)習(xí)方法在蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測方面表現(xiàn)卓越。然而,在新靶標(biāo)的藥物虛擬篩選場景中,高精度的活性預(yù)測評分方法仍然非常匱乏。研究表明,深度學(xué)習(xí)模型傾向?qū)W習(xí)數(shù)據(jù)中的分布偏差,對分布內(nèi)的數(shù)據(jù)可以給出很好的性能指標(biāo)。但在實(shí)際應(yīng)用中,尤其面對訓(xùn)練集未見的新靶標(biāo)和化學(xué)多樣性空間,卻無法展現(xiàn)出良好的泛化效果。
圖1. EquiScore 架構(gòu)圖。a:構(gòu)造異質(zhì)圖引入物理先驗(yàn)信息。b: 嵌入層。c: EquiScore層。d:任務(wù)層。e: 應(yīng)用場景。
本研究主要從兩個(gè)方面來提高深度學(xué)習(xí)評分函數(shù)對新蛋白的預(yù)測能力。首先,科研人員收集了更多的陽性樣本,并使用重對接來生成更多樣的陽性樣本。同時(shí),使用交叉蛋白對接,分子生成模型來生成更多具有欺騙性和多樣性的誘餌分子,以減少構(gòu)建訓(xùn)練數(shù)據(jù)集時(shí)可能出現(xiàn)的類似物偏差(analog bias)、數(shù)據(jù)分布偏差(data distribution bias)以及人工富集偏差(artificial enrichment bias)(見圖1)。其次,團(tuán)隊(duì)提出了一種異質(zhì)圖構(gòu)建流程,可以通過引入新的節(jié)點(diǎn)和邊來整合分子間相互作用的物理先驗(yàn)信息。同時(shí),科研人員提出了一種信息感知注意力機(jī)制,用于整合不同信息中的相互作用,這些信息包括包括:(1) 等變幾何信息,(2) 化學(xué)結(jié)構(gòu)信息,(3) 經(jīng)驗(yàn)相互作用信息。研究人員通過使用新構(gòu)建的數(shù)據(jù)集和等變異質(zhì)圖網(wǎng)絡(luò)來訓(xùn)練最終的評分模型 EquiScore。
圖2. 在DEKOIS2.0上對22種評分方法進(jìn)行評估。a、d: AUROC,b、e: BEDROC (α = 80.5)和c、f: 5.0% EF。箱形圖中的藍(lán)色三角形代表每個(gè)箱子的平均值。所有方法按其平均值排序。
在訓(xùn)練集中未見過的蛋白質(zhì)上的虛擬篩選能力能夠更好的反映評分方法在實(shí)際應(yīng)用中的泛化性能。為了進(jìn)行充分的比較,科研人員選擇了21種不同的評分方法作為基準(zhǔn)。最近報(bào)道的所有方法都是基于PDBbind數(shù)據(jù)集訓(xùn)練得到的,該數(shù)據(jù)集與外部測試集具有高度的“軟重疊”,即很多蛋白都是在訓(xùn)練過程中模型已經(jīng)見過的。為了進(jìn)一步檢查這種數(shù)據(jù)泄漏是否會(huì)導(dǎo)致性能高估,作者將外部測試集涉及“軟重疊”的數(shù)據(jù)進(jìn)行了去重,并對所有方法的結(jié)果進(jìn)行重新評估。在DEKOIS2.0測試集上的分析結(jié)果顯示(圖2),EquiScore的排序能力和富集能力都排在第一或者第二。值得注意的是,當(dāng)只考慮訓(xùn)練過程中未見過的蛋白時(shí),EquiScore 在所有的結(jié)果上都排在第一位。以上結(jié)果表明,在嚴(yán)格的測試下,EquiScore的綜合排序能力超過了現(xiàn)有的方法。此外,EquiScore對新蛋白的富集能力超過了傳統(tǒng)評分方法和深度學(xué)習(xí)方法。
同時(shí),科研人員還在外部的先導(dǎo)化合物優(yōu)化數(shù)據(jù)集上比較了EquiScore與其它方法對結(jié)構(gòu)類似物的活性排序能力;使用不同的對接方法生成蛋白-配體復(fù)合物結(jié)合構(gòu)象,進(jìn)一步評價(jià)EquiScore作為評分方法的魯棒性。最后,研究人員還分析了模型的可解釋性。
浙江大學(xué)與上海藥物所聯(lián)合培養(yǎng)博士研究生曹端華,國科大杭州高等研究院碩士研究生陳庚為本文的共同第一作者。上海藥物所鄭明月研究員為本文通訊作者。本研究得到了國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計(jì)劃、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目、中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)會(huì)員項(xiàng)目、上海市科技重大專項(xiàng)資助。