AI驱动的溶解度预测:革新药物研发与可持续化学的未来之路

1

AI驱动下的分子溶解度预测:革新药物研发与可持续化学进程

在现代化学与制药工业中,分子溶解度是决定药物候选物能否成功开发、化学反应能否高效进行以及工业过程能否可持续优化的核心因素之一。准确预测特定分子在有机溶剂中的溶解度,长期以来一直是合成规划和化学品制造中的一个主要瓶颈。传统的实验方法耗时耗力,且难以覆盖浩瀚的分子与溶剂组合空间。因此,开发出能够快速、精准预测溶解度的计算工具,成为推动药物发现与绿色化学发展的关键。

麻省理工学院(MIT)的化学工程师们近期推出了一项突破性的计算模型,该模型利用先进的机器学习技术,能够以前所未有的精度预测任意分子在有机溶剂中的溶解行为。这一创新不仅简化了新药和有用分子的生产过程,更对实现更高效、更安全的化学合成具有深远意义。通过提供可靠的溶解度预测,该模型将赋能化学家们在进行合成反应时,能够更加明智地选择合适的溶剂,从而优化整个研发流程。

AI快讯

解决制药与工业挑战:效率与可持续性的双重提升

该计算模型的出现,直接回应了制药行业和化学制造领域对效率与可持续性的迫切需求。在药物开发中,溶解度是药物吸收、分布、代谢和排泄(ADME)特性的基础,直接影响药物的生物利用度和疗效。传统的溶解度预测方法,如基于分子结构加和效应的亚伯拉罕溶剂化模型(Abraham Solvation Model),虽然提供了一定的估算能力,但其准确性往往受限于对复杂分子间相互作用的简化处理。面对新型分子结构和日益严苛的开发周期,传统方法的局限性日益凸显。

新模型的优势在于其能够显著加速药物设计与合成进程。通过在实验前即预测分子的溶解特性,研发人员可以大幅减少无效的实验尝试,从而缩短研发周期并降低成本。这对于快速迭代、竞争激烈的药物发现管线而言,无疑是巨大的推动力。

更值得关注的是,该模型在推动绿色化学方面展现出巨大潜力。当前,许多工业上常用的有机溶剂虽然溶解能力强,但往往伴随着环境污染和对人体健康的危害。这些溶剂的使用量受到严格限制,迫使企业寻求更安全的替代品。MIT的这项研究提供了一种系统性方法,帮助科学家识别并评估那些毒性较低、环境足迹更小的“下一代”溶剂。例如,通过模型预测,可以筛选出在保持溶解效率的同时,对环境和人体影响更小的溶剂,从而逐步淘汰或减少有害溶剂的使用,实现生产过程的“绿色转型”。这不仅符合全球可持续发展的趋势,也为企业带来了品牌形象和法规遵从性上的优势。

该研究团队由麻省理工学院化学工程系的Hoyt Hottel讲席教授兼能源倡议主任William Green领衔,Robert T. Haslam化学工程教授Patrick Doyle也参与其中。他们的研究成果已在《自然-通讯》(Nature Communications)期刊上发表。

模型的演进与数据驱动的突破

这项新模型最初源于Attia和Burns两位研究生在MIT一门关于机器学习在化学工程中应用课程中的合作项目。此前,Green实验室在2022年开发的SolProp模型是溶解度预测领域的最新进展。SolProp通过预测一系列相关属性,并结合热力学原理来估算溶解度,但在预测未曾见过的新溶质时,其性能表现欠佳。

制约现有溶解度模型发展的关键因素之一,是缺乏一个全面、高质量的训练数据集。然而,2023年发布的BigSolDB数据集弥补了这一空白。该数据集汇集了近800篇已发表论文的数据,涵盖了约800种分子在100多种常用有机溶剂中的溶解度信息,为机器学习模型的训练提供了坚实基础。

研究团队基于BigSolDB数据集,训练了两种不同类型的机器学习模型。这两种模型都通过“嵌入”(embeddings)这种数值表示来描述分子的化学结构,其中包含了分子中原子数量以及原子间键合方式等关键信息,进而利用这些表示来预测各种化学性质。

第一种模型是FastProp,由Burns和Green实验室的其他成员开发,采用“静态嵌入”。这意味着模型在开始任何分析之前,已经预先知道了每个分子的嵌入表示。第二种模型是ChemProp,它在训练过程中同时学习每个分子的嵌入表示,并将这些嵌入特征与溶解度等特性关联起来。ChemProp模型由MIT多个实验室合作开发,此前已成功应用于抗生素发现、脂质纳米颗粒设计以及预测化学反应速率等任务。

研究人员使用BigSolDB中超过40,000个数据点对这两种模型进行了训练,其中包含了温度对溶解度影响的信息,因为温度在溶解度中扮演着关键角色。随后,他们对约1000种未参与训练的溶质进行了测试。结果显示,这两种模型的预测精度比之前的最佳模型SolProp高出两到三倍,尤其是在预测由温度引起的溶解度微小变化方面,表现出卓越的准确性。Burns指出,即使在实验噪声很大的情况下,模型能够准确复现这些因温度引起的溶解度微小变化,这表明网络已经正确学习到了潜在的溶解度预测函数。

数据的瓶颈与未来的展望

令人意外的是,研究人员原本预期能够学习新表示的ChemProp模型会表现出更高的预测精度,但最终发现两种模型在性能上基本持平。这一结果表明,当前模型性能的主要限制因素并非算法本身的复杂性,而是训练数据的质量。这意味着在现有数据的限制下,这些模型已经达到了理论上的最佳性能。

Burns解释说:“理论上,当拥有足够数据时,ChemProp的表现应始终优于任何静态嵌入模型。我们惊讶地发现,在所有不同子集上,静态嵌入和学习嵌入的性能在统计学上无法区分,这向我们表明,该领域存在的数据限制主导了模型的性能。”

研究人员进一步指出,如果能有更优质、更一致的训练和测试数据——理想情况下,这些数据由受过统一培训的团队采用相同实验方法获得——模型的准确性将有望进一步提升。不同实验室在进行溶解度测试时采用的不同方法和实验条件,是造成现有数据集变异性的主要原因之一。

考虑到FastProp模型在预测速度上的优势以及其代码更易于其他用户适应和修改,研究团队决定将基于FastProp的FastSolv模型公开发布。目前,多家制药公司已开始采纳并使用这一工具,将其整合到药物发现的各个环节中。Attia和Burns均表示,他们非常期待看到FastSolv模型除了在配方和药物发现领域的应用外,还能在其他领域发挥其价值。这项由美国能源部部分资助的研究,正通过其强大的预测能力,为化学科学与工业的未来描绘出新的蓝图。