近年来,人工智能(AI)与大型语言模型(LLM)在诸多领域展现出强大的能力,但在化学反应预测这一复杂任务上,其应用却面临着严峻挑战。传统的AI模型往往仅关注反应物和产物之间的关联,难以有效融入基础物理定律,例如至关重要的质量守恒原则。这种脱离物理现实的预测,导致了模型输出的局限性和不可靠性。然而,麻省理工学院(MIT)的一个研究团队,近期成功开发出一种创新方法,将物理约束整合到反应预测模型中,显著提升了预测结果的准确性和稳定性。
这一突破性工作于8月20日发表在《自然》杂志上,由包括前博士后Joonyoung Joung(现任韩国国民大学助理教授)和资深作者Connor Coley教授在内的多位研究人员共同完成。Coley教授强调,反应结果的预测对于新药研发等至关重要的应用具有深远意义。他指出,要合成一种新药物,科学家必须精确了解给定化学输入可能产生的产物。然而,大多数早期的反应预测尝试,仅仅关注输入和输出,而忽略了中间步骤,也未能确保反应过程中质量的守恒,这在实际化学反应中是不可接受的。
Joung博士进一步解释道,尽管ChatGPT等大型语言模型在许多研究领域取得了巨大成功,但这些模型在设计上并未提供一种机制,以将其输出限制在物理上现实的可能性范围内,例如强制遵守质量守恒定律。这些模型在计算中使用的“令牌”可以代表单个原子,但如果这些“令牌”不被严格守恒,LLM模型就会在反应中凭空创造或删除原子,这无疑是一种“炼金术”式的操作。他指出,许多反应预测模型只关注最终产物,而该团队的目标是“追踪所有化学物质,以及这些化学物质在反应过程中从始至终如何转化”。
为解决这一根本性问题,MIT团队巧妙地借鉴了化学家Ivar Ugi在20世纪70年代提出的一种方法:键电子矩阵。他们以此为基础,开发出全新的程序系统,名为FlowER(Flow matching for Electron Redistribution)。FlowER系统能够明确追踪反应中的所有电子,确保在预测过程中不会出现任何虚假添加或删除电子的情况。该系统通过一个矩阵来表示反应中的电子,其中非零值代表化学键或孤对电子,零值则表示缺失。研究人员Fong表示:“这帮助我们同时守恒原子和电子。”他进一步指出,这种精确的表示方法,是他们将质量守恒原则融入预测系统的关键要素之一。
FlowER模型的核心在于,它将化学反应视为电子的重新分布过程,并以此构建预测模型。通过精确量化和跟踪电子在不同原子和键之间的流动,系统能够从根本上保证反应的物理真实性。这不仅避免了传统AI模型可能出现的“原子增减”问题,更使得FlowER能够生成符合实际化学反应机理的预测结果。这种基于电子流匹配的方法,为理解复杂的反应路径提供了新的视角,使得模型不再仅仅是统计模式的识别器,而是成为一个能够模拟化学基本过程的工具。
尽管目前FlowER系统仍处于早期阶段,Coley教授将其描述为“一个概念验证的演示,证明了这种生成式电子流匹配方法非常适合化学反应预测任务”。团队对这一充满前景的方法感到兴奋,但也清醒地认识到其在所涉化学反应广度方面的具体局限性。虽然该模型已利用来自美国专利局数据库的超过一百万个化学反应数据进行了训练,但Coley教授指出,这些数据并未完全涵盖某些金属和特定类型的催化反应。这意味着,在处理这些未包含在训练数据中的复杂化学体系时,模型可能仍需进一步的优化和扩展。
Coley教授强调,尽管存在这些限制,但现有系统在提供“如此可靠的化学机制预测”方面,已经让他们感到非常激动。他承认:“它守恒质量,它守恒电子,但我们也清楚地认识到,在未来几年里,还有大量工作要做,以扩大其覆盖范围和提高其鲁棒性。”即便在目前的形态下,FlowER系统已通过在线平台GitHub免费开放。Coley教授相信,“我们认为它将做出准确的预测,并作为一个评估反应性和绘制反应路径的有用工具。”他展望道:“如果我们展望未来,真正推进机械理解的最新水平并帮助发明新反应,我们还未完全达到目标。但我们希望这将是迈向该目标的一个垫脚石。”
Fong博士补充说:“一切都是开源的。”包括模型、数据,甚至Joung博士之前开发的详尽列出已知反应机制步骤的数据集,都已公开。“我认为我们是率先创建并开源这一数据集,使其可供所有人使用的团队之一。”FlowER模型在寻找标准机制路径方面,与现有方法相比,表现出匹配甚至更优异的性能,并且能够泛化到以前未见过的反应类型。团队表示,该模型可能在药物化学、材料发现、燃烧、大气化学和电化学系统等领域具有潜在应用价值。
在与现有反应预测系统的比较中,Coley教授指出:“通过我们所做的架构选择,我们在有效性和守恒性方面获得了巨大的提升,并且在性能方面的准确性也达到了匹配甚至略优的水平。”他补充道:“我们方法的独特之处在于,虽然我们利用教科书式的机制理解来生成这个数据集,但我们将整体反应的反应物和产物,锚定在来自专利文献的实验验证数据上。”他解释说,他们是在从实验数据中推断潜在机制,而不是凭空捏造。“以这种规模完成并共享这种从实验数据中推断机制的工作,以前是从未有过的。”
Coley教授表示,下一步是“我们非常希望能扩展模型对金属和催化循环的理解。在这第一篇论文中,我们只是触及了表面。”目前,大部分包含在模型中的反应不涉及金属或催化剂,因此“这是一个我们非常感兴趣的方向”。从长远来看,他认为“很多兴奋点在于利用这种系统来帮助发现新的复杂反应和阐明新的机制。我认为长期的潜在影响是巨大的,但这当然只是第一步。”这项研究得到了药物发现和合成机器学习联盟以及美国国家科学基金会的支持。