2023年7月28日,中國醫學科學院藥物研究所汪小澗課題組與合作團隊在生物信息學領域國際期刊Briefings in Bioinformatics《生物信息學簡報》發表題為“CMGN: a conditional molecular generation net to design target-specific molecules with desired properties”(CMGN:一個可用于條件分子生成的藥物設計方法)的研究論文,報道了雙向自回歸轉換器的條件分子生成模型應用于藥物發現的研究。
生成式人工智能(Artificial Intelligence Generated Content,AIGC)是目前人工智能研究與應用的重點方向。課題組采用“預訓練+微調”的訓練模式建立CMGN模型,基于大規模數據集的預訓練開展分子生成規則學習,在特定任務的小數據集上做遷移學習,以適應不同的下游任務。CMGN采用條件分子生成訓練策略,訓練模型學習分子片段和分子性質信息進而生成完整分子結構,通過輸入特定的分子片段引導模型具備結構改造與優化的能力。為了評估模型的條件分子生成能力,CMGN在包含5000萬分子的數據集上進行預訓練,評估結果顯示,該模型能夠結合分子片段和分子性質信息生成分子,分子回復率達到85.74%,且顯示了基于片段的分子多性質優化能力。課題組進一步應用該模型開展布魯頓酪氨酸激酶(BTK)抑制劑的分子設計,發現了具有較好活性的先導化合物,具有良好的開發前景。這一通用的模型框架也可應用于碳譜的結構解析研究,該研究在Analytical Chemistry《分析化學》期刊以封底文章發表,并應邀在期刊的perspective(觀點)欄目撰寫綜述。

圖1. CMGN與傳統藥物設計對比,及其通過遷移學習及性質調節解決分子逆問題的應用策略

圖2. (左)GMGNet模型基于13C NMR結構解析的工作流程;(右)AI在四大光譜中的應用
藥物所汪小澗研究員,碳硅智慧公司鄧亞峰博士為本論文的共同通訊作者。藥物所楊敏健博士和碩士生孫涵宇為共同第一作者。該工作獲得中國醫學科學院醫學與健康科技創新工程(CIFMS, No. 2021-I2M-1-028)和國家自然科學基金(NSFC, No. 82073692)的資助。
Briefings in Bioinformatics鏈接:https://academic.oup.com/bib/article/24/4/bbad185/7165252
Analytical Chemistry鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.2c05817
Analytical Chemistry (Perspective)鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.3c02540