Brief Bioinform?|?上海藥物所合作構(gòu)建靶向EGFR突變肺癌的用藥推薦平臺D3EGFR
文章來源:上海藥物研究所 | 發(fā)布時間:2024-04-15 | 【打印】 【關(guān)閉】
2024年3月28日,中國科學院上海藥物研究所朱維良/徐志建團隊、上海市肺科醫(yī)院謝冬團隊和南京醫(yī)科大學第一附屬醫(yī)院丁穎團隊合作,于Briefings in Bioinformatics發(fā)表題為“D3EGFR: a webserver for deep learning-guided drug sensitivity prediction and drug response information retrieval for EGFR mutation-driven lung cancer”的研究文章。該研究通過構(gòu)建表皮生長因子受體(EGFR)突變患者臨床用藥數(shù)據(jù)庫和EGFR突變藥物敏感性預測模型,有望輔助臨床醫(yī)生設計合理可靠的個體化治療方案。
靶向EGFR突變肺癌的用藥推薦平臺D3EGFR
肺癌是對人類生命健康威脅最大的惡性腫瘤之一,被稱為癌癥的“頭號殺手”。2020年發(fā)布的統(tǒng)計報告顯示[1],肺癌在全球范圍內(nèi)有超過220萬的新病例和超過180萬的死亡人數(shù)。非小細胞肺癌是臨床上最常見的肺癌類型,約占肺癌診斷總?cè)藬?shù)的85%,其主要亞型有腺癌、鱗狀細胞癌以及大細胞癌。
EGFR是研究最為廣泛的肺癌驅(qū)動基因之一,也是開發(fā)治療非小細胞肺癌靶向藥物的重要靶標。隨著現(xiàn)代分子生物學技術(shù)和醫(yī)療水平的迅速發(fā)展,具有高選擇性和高安全性的靶向藥物成為當前肺癌精準醫(yī)療的重點研究方向。EGFR酪氨酸激酶抑制劑(EGFR-TKIs)是EGFR突變肺癌患者的標準治療選擇。但臨床發(fā)現(xiàn),不同突變型患者對藥物的治療效果存在差異性,且部分患者在藥物治療一段時間后會產(chǎn)生耐藥性突變。隨著基因測序方法的發(fā)展,許多臨床意義不明的新型EGFR突變類型被陸續(xù)鑒定出來,給這類突變患者的個體化精準醫(yī)療帶來了新的挑戰(zhàn)。
在本研究中,為了解決臨床案例數(shù)據(jù)匱乏的問題,研究人員首先收集了近二十年EGFR突變肺癌患者的臨床治療相關(guān)文獻,并由此構(gòu)建了EGFR突變患者臨床用藥數(shù)據(jù)庫D3EGFRdb。D3EGFRdb中收集的突變患者案例主要包含三方面信息:一是個體特征,如突變位點、性別、年齡、吸煙狀況、病理學和采用的治療藥物等;二是用藥結(jié)果,如藥物響應、疾病進展時間(TTP)、無進展生存期(PFS)和總生存期(OS)等,藥物響應類型包括完全緩解(CR)、部分緩解(PR)、疾病穩(wěn)定(SD)和疾病進展(PD);三是其他信息,如臨床研究類型和原始文獻出處等。通過在PubMed數(shù)據(jù)庫中系統(tǒng)檢索,D3EGFRdb共收錄了141篇相關(guān)文獻,包含了1339例患者和257種突變類型(圖1)。建立D3EGFRdb數(shù)據(jù)庫的目的是:一是根據(jù)已報道的患者治療案例為醫(yī)生提供有據(jù)可循的用藥決策依據(jù);二是用于本研究中構(gòu)建的計算模型的預測效果評價;三是作為未來其他研究人員開展此類相關(guān)研究的寶貴的臨床數(shù)據(jù)資源。
圖1? D3EGFRdb中的患者突變類型和臨床藥物響應分布。(A)EGFR突變在蛋白三維結(jié)構(gòu)上的分布;(B)每種藥物的患者病例分布。
通過對臨床案例進行分析(圖2),女性(女性 vs. 男性:47.8% vs. 31.6%)、60-79歲(34.1%)和非吸煙者(非吸煙者 vs. 曾經(jīng)或目前吸煙者:39.1%對23.8%)是EGFR突變頻率較高的群體。這表明患者的個體特征與EGFR突變肺癌的發(fā)病率存在特定聯(lián)系。其中,患者的主要病理是腺癌(ADC vs. 非ADC:68.1% vs. 7.9%)。在突變類型和分布位點上,點突變是最常見的突變種類(48.6%),其次是缺失型突變(16.3%),主要包括外顯子21的L858R突變和外顯子19的缺失突變。
圖2? D3EGFRdb中的患者個體特征。(A-F)患者的性別、年齡、吸煙史、病理學、突變類型和突變外顯子分布情況。
此外,研究人員進一步考察了深度學習算法快速預測特定突變型的藥物敏感性變化的可行性。深度學習算法具有神經(jīng)網(wǎng)絡架構(gòu)的靈活性,在預測藥物與靶標的相互作用方面取得了顯著的進展。同時,深度學習模型訓練過程中不依賴蛋白質(zhì)三維結(jié)構(gòu),可有效避免突變體建模結(jié)構(gòu)的誤差影響。在該部分,研究人員采用DeepPurpose庫[2]構(gòu)建了80種不同編碼器組合的深度學習模型,并將EGFR-TKIs藥物結(jié)構(gòu)和突變蛋白質(zhì)的氨基酸序列及其對應的生物活性信息作為輸入數(shù)據(jù),來探索EGFR突變型與藥物敏感性之間的關(guān)系。其中,有17種預測模型在生物活性數(shù)據(jù)集上的十折交叉平均相關(guān)性R大于0.8,表明利用深度學習模型預測突變蛋白質(zhì)和藥物的結(jié)合親和力具有可行性。
隨后,科研人員將這17種模型進一步應用于D3EGFRdb臨床數(shù)據(jù)集。由于訓練深度學習模型時采用的標簽是生物學活性數(shù)值,而D3EGFRdb庫的標簽是CR、PR、SD和PD這四種藥物治療響應類型,因此需要再構(gòu)建多分類邏輯回歸模型,從而將深度學習模型預測的藥物對不同突變型的親和力打分與臨床藥物響應類別進行關(guān)聯(lián),進而處理多分類預測問題。最終發(fā)現(xiàn)當藥物編碼器為Morgan,突變蛋白編碼器為CNN時,綜合預測效果最佳,其在生物活性測試集上的相關(guān)性為0.86,在D3EGFRdb臨床案例集上的準確率為0.81,在外部臨床數(shù)據(jù)集上的準確率為0.85?;诖?,將Morgan+CNN深度學習模型作為EGFR突變蛋白藥物敏感性預測的最終模型,并命名為D3EGFRAI。D3EGFRAI模型構(gòu)建流程如圖3所示。
圖3? 不同編碼器組合的深度學習框架
進一步分析臨床案例,擁有同種突變型的不同患者在服用同一種藥物后可能出現(xiàn)不同的臨床藥物響應。為此,D3EGFRAI模型同時輸出了每種藥物響應的預測概率,這將有助于更好地評估各藥物的治療效果。從中可以發(fā)現(xiàn),多數(shù)突變-藥物體系可能存在一到兩種概率較高的藥物響應(圖4),這可能與患者個體差異和其他現(xiàn)實環(huán)境下的復雜因素有關(guān)。
圖4? 不同突變體系的各藥物響應預測概率
為了方便用戶使用,研究人員整合D3EGFRdb數(shù)據(jù)庫和D3EGFRAI模型構(gòu)建了D3EGFR在線平臺。該網(wǎng)站對所有用戶免費開放,無登錄要求,同時支持英文和中文(簡體)語言,為用戶提供EGFR突變患者的病例檢索和臨床藥物響應預測服務。以T790M+L858R突變型為例,D3EGFRdb共收錄了29例該突變型患者(圖5),其中奧希替尼的CR/PR藥物響應率為78.5%,優(yōu)于吉非替尼(0%)、厄洛替尼(0%)和阿法替尼(14.3%),表明奧希替尼是治療T790M+L858R突變患者的有效藥物。本模塊除了提供突變型與藥物治療效果的統(tǒng)計結(jié)果外,還提供了每位患者案例的具體臨床特征和原始文獻出處等信息。根據(jù)D3EGFRAI模型的預測結(jié)果,T790M+L858R突變型對第三代藥物奧希替尼、艾美替尼和伏美替尼較為敏感,預測的藥物響應均為CR/PR;而對第一代藥物吉非替尼、厄洛替尼和埃克替尼以及第二代藥物阿法替尼和達克替尼則是耐藥抵抗,預測的藥物響應均為PD,這一結(jié)論與D3EGFRdb的案例統(tǒng)計結(jié)果以及之前的報道一致。
圖5? D3EGFR平臺的輸入和輸出信息
該論文第一作者為上海藥物所博士研究生石禹龍,共同第一作者為上海市肺科醫(yī)院博士研究生李重武和上海藥物所張鑫賁高級實驗師,通訊作者為朱維良研究員、徐志建研究員、謝冬主任醫(yī)師和丁穎副主任醫(yī)師。該工作還得到華東師范大學張倩副研究員和南京醫(yī)科大學孫鵬副教授等的大力支持。該項研究工作得到了國家自然科學基金、科技部重點研發(fā)項目等的資助。
原文鏈接:https://doi.org/10.1093/bib/bbae121
參考文獻
[1] Sung H, Ferlay J, Siegel RL, et al.. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin 2021;71:209–49.
[2] Huang K, Fu T, Glass LM, et al.. DeepPurpose: a deep learning library for drug-target interaction prediction. Bioinformatics 2021;36:5545–7.?