搜索

x
专题

更多 
领域
文章类型

生物分子模拟中的机器学习

      分子模拟技术是人们从分子层次探究生命现象物理原理的重要手段, 被广泛应用于蛋白质等生物大分子的结构与动力学研究. 自从 20世纪 70年代 Karplus 等科学家首次将分子动力学模拟应用于蛋白质研究以来, 分子模拟技术在生物分子体系研究中的应用范围不断扩展, 深刻影响了生物物理学与分子生物学研究的基本范式. 生物大分子的结构动力学涉及皮秒到毫秒甚至更长时间尺度,如何精确表征具有复杂能量面特征的生物大分子结构与动力学的多尺度特性是生物分子模拟领域的核心难题. 通过物理、化学以及计算机科学等多个领域科学家近 50年的不懈努力, 人们在生物分子力场准确度提升、各种相互作用的准确描述和计算、增强采样与自由能计算、高维分子模拟数据信息挖掘以及多尺度理论模拟算法构建等方面取得了多个突破. 目前, 人们不仅能够实现对一些蛋白质分子体系毫秒时间尺度的折叠全过程进行分子模拟, 而且能够实现对病毒颗粒、细胞质、甚至染色质等超大分子体系进行分子模拟, 在推动生命科学研究向定量化转变中发挥了重要作用. 近年来, 机器学习技术的突飞猛进为解决生物分子模拟中的挑战难题提供了新思路. 人们开始广泛利用深度学习技术构建高精度分子力场、增强分子模拟采样效率、分析高维复杂的分子模拟数据、提取结构及动力学特征等, 取得了一系列重要进展. 结合机器学习算法的分子模拟技术已经在生物物理机制探究、药物设计、结构与动力学预测等基础与应用研究中展现出其实用性与巨大发展潜力.

      鉴于机器学习算法在推动生物分子模拟技术发展和生物物理研究中的关键作用, 《物理学报》特组织本专题, 邀请国内部分活跃在该领域前沿的学者撰稿, 深入探讨生物分子模拟与机器学习融合应用的最新研究成果, 并对该领域当前面临的重要挑战及未来研究中可能的突破方向进行综述和展望. 相关论文涵盖了基于机器学习算法的蛋白质分子模拟构象空间搜索、RNA扭转角预测、蛋白质等生物大分子 pKa值预测、生物大分子构象过渡态搜索、蛋白质结构模型质量评估、靶标特异性药物筛选、蛋白质分子设计、高分子塌缩相变和临界吸附相变以及分子体系高维自由能地貌图构建等十余篇研究和综述论文, 分两期刊出. 这些研究论文和综述从不同的角度展示了国内外该领域的最新进展和研究现状. 希望本专题有助于读者了解该领域的前沿研究课题, 并能对促进国内生物分子模拟学术交流发挥作用. 本专题讨论的研究领域涉及多个学科的交叉融合, 且突破性的研究成果不断涌现, 因此本专题所涵盖的代表性成果和前沿进展介绍难免有所遗漏, 不足之处敬请谅解.

客座编辑:李文飞, 王炜 南京大学; 周昕 中国科学院大学
物理学报. 2023, 72(24).
RNA扭转角预测的深度学习方法
欧秀娟, 肖奕
2023, 72 (24): 248703. doi: 10.7498/aps.72.20231069
摘要 +
RNA分子三级结构模建是分子生物物理学研究的基本问题之一, 对理解RNA的功能和设计新的结构有重要意义. RNA三级结构主要由主链和侧链上的7个扭转角确定, 准确预测这些扭转角是RNA分子三级结构模建的基础. 目前只有个别采用深度学习模型预测RNA分子扭转角的方法, 要用于模建RNA分子的三级结构其预测精度还有待进一步提高. 本文提出了一种预测RNA分子扭转角的深度学习方法1dRNA, 采用了考虑相邻核苷酸的卷积模型(DRCNN)和考虑全链核苷酸的超长短期记忆模型(DHLSTM)两种不同的深度学习模型. 结果显示, 与现有方法相比, 这两种模型都能提高RNA分子大部分扭转角的预测精度, DRCNN预测精度提高在5%到28%之间, DHLSTM预测精度提高在6%到15%之间. 结果还显示, αγ角是最难预测的, 环区扭转角比螺旋区的扭转角难预测, 模型对预测序列长度的变化不敏感, 模型预测角度与decoys的角度偏差可用于模型质量评估.
使用中间层受监督的自编码器探索蛋白质的构象空间
陈光临, 张志勇
2023, 72 (24): 248705. doi: 10.7498/aps.72.20231060
摘要 +
蛋白质的功能往往与其结构和动态变化密切相关. 分子动力学模拟是研究蛋白质结构变化的有效方法, 然而使用分子动力学模拟对蛋白质的构象空间进行采样需要花费很长的时间. 近年来的一些研究表明, 使用简单的机器学习模型——自编码器及其改进型, 可以在有限采样的情况下, 快速完成对蛋白质构象空间的探索. 该模型通过训练神经网络, 完成对隐变量的提取, 同时根据其产生构象, 但是由于提取出的隐变量没有直观的含义, 探索构象空间的方向会受到影响. 本工作通过引入反应坐标(如质心距离等), 建立了一个中间层受监督的自编码器模型, 以解决上述问题. 该模型应用于噬菌体T4溶菌酶和腺苷酸激酶两个蛋白质分子, 结果表明, 仅使用短时间分子动力学模拟作为训练数据, 就可以探索到这两种蛋白分子的多种典型构象. 有监督(合理的反应坐标或者实验数据等)的自编码器模型有望成为探索蛋白质构象空间的有效工具.
生物大分子过渡态搜索算法及其中的机器学习
杨建宇, 席昆, 竺立哲
2023, 72 (24): 248701. doi: 10.7498/aps.72.20231319
摘要 +
过渡态是物理化学家理解和调控生物大分子相关功能微观机制的关键. 因其存在时间极短, 难以被实验手段捕捉, 全面刻画其结构必须通过物理定律驱动的模拟计算搜索予以实现. 然而, 与化学反应过程只涉及少量原子不同, 生物大分子的功能性构象变化所涉的原子和坐标数量巨大, 搜索其过渡态将不可避免地遭遇维数灾难, 即反应坐标问题, 因而催生了多种应对策略和算法. 同时, 随着近年来新型机器学习算法的大量涌现和日臻成熟, 融入机器学习范式的过渡态搜索算法也已出现. 本文首先回顾和梳理过渡态搜索代表性算法的设计思想, 包括依赖集合变量的温和爬升动力学(gentlest ascent dynamics, GAD)、有限温度弦方法(finite temperature string, FTS)、快速断层扫描法(fast tomographic)、基于旅行商的自动路径搜索算法TAPS, 以及过渡路径采样法(transition path sampling, TPS). 然后, 重点介绍TPS与强化学习融合而成的新型路径采样算法, 解析强化学习在其中的作用, 并厘清其适用场景. 最后, 我们提出一种将降维算法与GAD深度融合的新构想, 讨论研发可保留过渡态信息的新型降维算法的必要性及可行性.
生物分子模拟中的机器学习方法
管星悦, 黄恒焱, 彭华祺, 刘彦航, 李文飞, 王炜
2023, 72 (24): 248708. doi: 10.7498/aps.72.20231624
摘要 +
分子模拟技术已成为人们从分子层次探究生命原理的强有力工具. 经过近50年的发展, 生物分子模拟能够实现对蛋白折叠、构象运动和蛋白-蛋白分子相互作用等复杂分子体系的生物过程的动力学和热力学性质进行定量表征. 近年来, 以深度学习为代表的机器学习算法的应用进一步推动了生物分子模拟技术的发展. 本文对生物分子模拟中的机器学习方法进行综述, 重点讨论机器学习算法在提高生物分子力场精度、分子模拟构象采样效率、以及高维生物分子模拟数据处理等方面取得的重要进展. 在此基础上, 对未来研究中基于机器学习技术进一步克服生物分子模拟的精度和效率瓶颈、扩展生物分子模拟适用范围、实现计算模拟与实验测量的深度融合做了展望.
蛋白质pKa预测模型研究进展
罗方芳, 蔡志涛, 黄艳东
2023, 72 (24): 248704. doi: 10.7498/aps.72.20231356
摘要 +
pH表征溶液的酸碱性, 是许多与人类重大疾病密切相关的生命活动的调控因子. $ {\mathrm{p}}{K}_{{\mathrm{a}}} $决定可滴定基团在一定pH条件下的去质子化平衡, 是研究pH调控的生物化学过程的重要参量. 然而, 由于蛋白质结构的复杂性以及实验条件的限制, 蛋白质$ {\mathrm{p}}{K}_{{\mathrm{a}}} $通常需要借助理论预测. 近30年, 研究者们开发了各种基于先验知识的$ {\mathrm{p}}{K}_{{\mathrm{a}}} $预测模型. 随着近几年人工智能技术的快速发展, 人们开始尝试将人工智能算法应用于蛋白质$ {\mathrm{p}}{K}_{{\mathrm{a}}} $预测工具的开发. 本文介绍$ {\mathrm{p}}{K}_{{\mathrm{a}}} $理论预测近年来的一些重要研究进展, 主要包括恒定pH分子动力学以及基于泊松-玻尔兹曼方程、经验函数和机器学习的$ {\mathrm{p}}{K}_{{\mathrm{a}}} $预测模型. 在此基础上, 讨论蛋白质$ {\mathrm{p}}{K}_{{\mathrm{a}}} $预测模型的未来发展方向和应用前景.
靶向PD-L1蛋白的计算机辅助药物筛选
林开东, 林晓倩, 林绪波
2023, 72 (24): 240501. doi: 10.7498/aps.72.20231068
摘要 +
针对PD-1/PD-L1免疫检查点的单克隆抗体抑制剂逐渐进入市场并在多种类型的肿瘤治疗中取得一定的积极效果. 然而, 随着应用范围的不断扩展, 抗体药物的局限性以及过多同质化研究等问题逐渐显现出来, 小分子化合物抑制剂成为了研究者们关注的新焦点. 本文旨在利用基于配体和基于结构的结合活性预测方法实现针对PD-L1靶点的小分子化合物虚拟筛选, 从而帮助加速小分子药物的开发. 通过从相关研究文献及专利收集PD-L1小分子抑制活性数据集, 根据不同分子表征方法和算法构建机器学习活性判定分类模型和活性强度预测回归模型, 两类模型从大型类药小分子库(ZINC15)中筛选获得68种高PD-L1抑制活性候选化合物. 其中10种化合物不仅具备良好的药物相似性和药代动力学, 还在分子对接中与已报道的热点化合物表现出同等水平的结合强度和相似的作用机制, 这一现象在后续分子动力学模拟和结合自由能估计中得到进一步验证. 本文提出了一个融合基于配体方法和基于结构方法的计算机辅助药物研发工作流程, 其在大型化合物数据库中有效筛选出有潜力的PD-L1小分子抑制剂, 有望助力加速肿瘤免疫治疗的应用.
高分子塌缩相变和临界吸附相变的计算机模拟和机器学习
罗启睿, 沈一凡, 罗孟波
2023, 72 (24): 240502. doi: 10.7498/aps.72.20231058
摘要 +
高分子的塌缩和临界吸附是高分子科学中的两个重要相变现象, 两者均伴随着高分子构象的显著变化 . 本文利用朗之万动力学方法和动力学Monte Carlo方法分别模拟了高分子的塌缩和临界吸附, 同时获得了不同温度下大量的高分子构象数据. 机器学习方法利用模拟得到的大量伸展无规线团态和塌缩液滴态、脱附态和吸附态构象数据训练神经网络, 学习高分子不同状态的特征, 快速准确地分析不同温度的高分子构象信息, 得到对应的塌缩相变温度和临界吸附温度. 结果表明机器学习能正确给出高分子体系的相变温度, 这为机器学习技术研究高分子的相变提供了新的思路和方法.
蛋白质结构模型质量评估方法综述
刘栋, 崔新月, 王浩东, 张贵军
2023, 72 (24): 248702. doi: 10.7498/aps.72.20231071
摘要 +
蛋白质模型质量评估方法是蛋白质结构预测的关键技术, 自CASP7以来一直是结构生物信息学领域的研究热点. 模型质量评估方法不仅可以指导蛋白质结构模型的精修, 还能够从多个候选构象中筛选出最佳模型, 具有重要的生物学研究和实际应用价值. 本文首先回顾了国际蛋白质结构预测关键评估竞赛(CASP)、全球持续蛋白质结构预测竞赛(CAMEO)以及单体蛋白和复合物的模型评估指标, 主要梳理了近5年来包括共识方法(多模型方法)、准单模型方法和单模型方法在内的模型质量评估方法的发展历程, 并介绍CASP15中的复合物模型评估方法; 鉴于深度学习在蛋白质预测领域所取得的巨大进展, 重点分析了深度学习在单模型方法数据集生成、蛋白质特征提取以及网络架构构建方面的深入应用, 并进一步介绍了本课题组近年来在模型质量评估方面开展的工作; 最后, 总结分析了目前蛋白质模型质量评估技术的局限性及所面临的挑战, 并对未来发展趋势进行了展望.
蛋白质计算中的机器学习
张嘉晖
2024, 73 (6): 069301. doi: 10.7498/aps.73.20231618
摘要 +
蛋白质计算一直以来都是科学领域中的重要课题, 而近年来其与机器学习的结合, 更是极大地推进了相关学科的发展. 本综述主要讨论了机器学习在四个重要的蛋白质计算领域内的研究进展, 这四个领域包括:分子动力学模拟、结构预测、性质预测和分子设计. 分子动力学模拟依赖于力场参数, 准确的力场参数是分子动力学模拟的必需品, 而机器学习可以帮助研究者得到更加准确的力场参数. 在分子动力学模拟中, 机器学习也可以从复杂的体系中以较小的代价计算出所需求解的自由能. 结构预测一般是给定蛋白质序列预测其结构. 结构预测复杂度高、数据量大, 而这恰恰是机器学习所擅长的. 在机器学习的协助下, 近年来科研人员已经在单个蛋白质三维结构预测上取得了不错的成果. 性质预测则是指通过给定的已知蛋白质信息, 推断其可能拥有的性质, 这对于蛋白质的研究也是至关重要的. 更具挑战性的是分子设计, 虽然近年来机器学习在蛋白质设计上取得突破, 但这一领域还有很大空间值得探索. 本综述将针对以上四点分别展开论述, 并对蛋白质计算中的机器学习研究进行展望.
分子体系自由能地貌图的变分分析及AI算法实现
杜泊船, 田圃
2024, 73 (6): 068702. doi: 10.7498/aps.73.20231800
摘要 +
精确描述复杂分子体系的自由能地貌图是理解和操控其行为, 并进一步实现分子设计制造工业化的重要基础. 刻画高维空间自由能地貌图的主要挑战是其往往在不同时空间尺度上具有多个层次, 每个层次都可能有不止一个亚稳态被相应的自由能垒分开, 且跨越路径有可能不止一条. 另外很多体系涉及非线性行为, 这使得理论解析和直接使用分子模拟都有很大困难. 针对这些挑战, 多年来研究者们发展了多种多样的增强采样方法, 但往往需要很多经验选择和操作, 从而一方面使得研究进程较为缓慢, 另一方面也让误差控制成为困难. 变分虽然在物理、统计和工程中已经被广泛应用并取得巨大成功, 但在复杂分子体系中的应用却随着神经网络的发展刚刚开始. 本文将对这些探索性工作的主要方向、进展和局限进行简要总结, 也对将来的可能发展给出展望, 希望能够激发更多对基于变分的分子体系自由能地貌图人工智能算法的关注和努力, 促进大分子药物、分子生物机器等实践应用的发展.
融合结构知识的蛋白质预训练模型进展
汤天一, 熊翊名, 张睿格, 张建, 李文飞, 王骏, 王炜
2024, 73 (18): 188701. doi: 10.7498/aps.73.20240811
摘要 +
自然语言和图像处理领域引发的人工智能革命给蛋白质计算领域带来了新的思路和研究范式. 其中一个重大的进展是从海量蛋白质序列通过自监督学习得到预训练的蛋白质语言模型. 这类预训练模型编码了蛋白质的序列、进化、结构乃至功能等多种信息, 可方便地迁移至多种下游任务, 并展现了强大的泛化能力. 在此基础上, 人们正进一步发展融合更多种类数据的多模态预训练模型. 考虑到蛋白质结构是决定其功能的主要因素, 融合了结构信息的蛋白质预训练模型可更好地支持下游多种任务, 本文对这一方向的研究工作进行了介绍和总结. 此外, 还简介了融合先验知识的蛋白质预训练模型、RNA语言模型、蛋白质设计等方面的工作, 讨论了这些领域目前的现状、困难及可能的解决方案.