Neo-1:AI驱动的分子设计革命,加速新药发现的引擎

3

在生物医药领域,人工智能(AI)正以前所未有的速度革新药物发现和设计流程。VantAI 推出的 Neo-1 模型,正是这场变革中的一颗耀眼新星。作为全球首个统一了从头分子生成与原子级结构预测的 AI 模型,Neo-1 不仅能够预测生物分子的结构,还能创造全新的分子,为分子胶等创新疗法的设计开辟了新的可能性。本文将深入探讨 Neo-1 的技术原理、功能特性及其在药物研发中的潜在应用,揭示其如何助力加速新药发现进程。

Neo-1:药物设计的新范式

传统的药物设计往往依赖于大量的实验筛选和经验积累,耗时且成本高昂。Neo-1 的出现,打破了这一传统模式。它通过 AI 技术,实现了对分子结构和性质的精准预测和设计,极大地提高了药物研发的效率。

Neo-1 的核心优势在于其统一的生成与预测能力。不同于以往的模型,Neo-1 并非简单地预测原子坐标,而是通过生成分子的潜在表示,从而预测生物分子的结构并生成全新的分子。这种方法赋予了 Neo-1 更强大的创造力和灵活性,使其能够设计出具有特定功能和性质的分子。

此外,Neo-1 还具备多模态输入功能,可以接受包括部分序列、部分结构和实验数据在内的多种信息。这种多模态输入方式,使得 Neo-1 能够充分利用已有的生物学知识和实验数据,显著提高药物设计的效率和准确性。例如,在设计分子胶时,研究人员可以输入靶蛋白的部分结构信息以及已知的活性片段序列,Neo-1 就能够根据这些信息,生成具有高亲和力和选择性的分子胶候选分子。

Neo-1

Neo-1 的主要功能

Neo-1 的强大功能,源于其独特的技术架构和大规模的训练数据。以下是 Neo-1 的几个主要功能:

  1. 统一生成与预测

    Neo-1 实现了从头分子生成与原子级结构预测的统一。这使得它不仅能够预测已知分子的结构,还能创造全新的分子。通过生成分子的潜在表示,而不是预测原子坐标,Neo-1 能够在更平滑的序列和结构景观中进行推理,从而生成具有创新性的分子结构。

  2. 多模态输入

    Neo-1 接受多种模态的输入,包括部分序列、部分结构和实验数据等。这种多模态输入方式,使得 Neo-1 能够充分利用已有的生物学知识和实验数据,显著提高药物设计的效率和准确性。例如,研究人员可以将靶蛋白的部分序列和结构信息输入 Neo-1,然后让 Neo-1 生成能够与该靶蛋白结合的候选分子。

  3. 大规模训练

    Neo-1 是生物学中最大的基于扩散的模型之一,使用数百个 NVIDIA H100 GPU 在结构和合成数据集上进行训练。这种大规模的训练,使得 Neo-1 能够学习到丰富的生物学知识和化学规则,从而提高其预测和生成能力。

  4. 定制数据集和工具

    Neo-1 结合了 VantAI 自有的 NeoLink 数据集以及与 NVIDIA 共同开发的 PINDER & PLINDER 工具。NeoLink 数据集包含了大量的蛋白质结构和相互作用数据,而 PINDER & PLINDER 工具则能够用于蛋白质结构的预测和优化。这些定制的数据集和工具,进一步提升了 Neo-1 的性能。

Neo-1 的技术原理

Neo-1 的技术原理主要包括以下几个方面:

  1. 潜在空间中的扩散过程

    Neo-1 将扩散过程从传统的坐标空间转移到潜在空间。这种转变使得模型能够在更平滑的序列和结构景观中进行推理,从而生成全新的分子,包括蛋白质、肽和小分子,同时以原子级精度预测它们的结构。具体来说,Neo-1 首先将分子编码成潜在空间中的一个点,然后通过扩散过程,逐渐向该点添加噪声,直到完全破坏分子的结构信息。接着,Neo-1 再通过逆扩散过程,从噪声中重建分子的结构。

  2. 大规模训练与定制数据集

    Neo-1 是生物学中最大的基于扩散的模型之一,使用数百个 NVIDIA H100 GPU 在结构和合成数据集上进行训练。这种大规模的训练,使得 Neo-1 能够学习到丰富的生物学知识和化学规则,从而提高其预测和生成能力。同时,Neo-1 还结合了 VantAI 自有的 NeoLink 数据集以及与 NVIDIA 共同开发的 PINDER & PLINDER 工具,进一步提升了模型的性能。

  3. 精准的分子生成与结构预测

    Neo-1 采用“粗到细”的生成方式,能够根据整个分子结构施加中间奖励,将分子生成导向任何目标。与传统的自回归模型不同,后者在生成过程中缺乏灵活性。具体来说,Neo-1 首先生成分子的整体结构,然后再逐步细化到原子级别。在这个过程中,Neo-1 会根据预设的目标,对分子的结构进行优化,例如提高其与靶蛋白的亲和力。

Neo-1 的应用场景

Neo-1 的强大功能和灵活的应用方式,使其在药物研发领域具有广阔的应用前景。以下是 Neo-1 的几个主要应用场景:

  1. 分子胶设计

    分子胶是一类能够将两个或多个蛋白质连接在一起的小分子。它们在药物研发中具有重要的应用价值,例如可以用于靶向蛋白质降解或增强蛋白质之间的相互作用。然而,分子胶的设计通常非常困难,需要耗费大量的时间和精力。Neo-1 能够针对复杂的靶点设计分子胶等新型治疗药物,将传统上需要数年的时间缩短为数周。研究人员只需将靶蛋白的结构信息输入 Neo-1,然后设定所需的功能和性质,Neo-1 就能自动生成候选的分子胶分子。

  2. 蛋白质复合物结构预测

    蛋白质复合物是由两个或多个蛋白质结合形成的结构。它们在细胞信号传导、免疫反应和酶催化等生物过程中发挥着重要的作用。然而,蛋白质复合物的结构预测通常非常困难,因为蛋白质之间的相互作用复杂且难以模拟。Neo-1 能够预测多种生物分子复合物的结构,包括三元复合物、抗体 – 抗原相互作用和蛋白质 – 肽复合物。这对于理解蛋白质的功能和设计针对蛋白质复合物的药物具有重要的意义。

  3. NeoLink 数据平台的应用

    Neo-1 与 VantAI 的 NeoLink 数据平台相结合,能够基于交联质谱法生成的稀疏结构约束,组装成完整的原子级分辨率结构。交联质谱法是一种能够识别蛋白质之间相互作用的技术。通过将交联质谱法与 Neo-1 相结合,研究人员可以更加准确地预测蛋白质复合物的结构。

  4. 抗体发现

    抗体是一类能够特异性识别和结合抗原的蛋白质。它们在免疫治疗和疾病诊断中具有广泛的应用。传统的抗体发现方法通常依赖于动物免疫或噬菌体展示等技术,耗时且成本高昂。Neo-1 能够实现从头到尾的理性抗体发现。研究人员可以将部分抗体序列和抗原结构作为输入,同时折叠 VH 抗体片段并生成部分 CDRH3 序列。这大大缩短了抗体发现的时间,并降低了成本。

Neo-1 的价值与展望

Neo-1 的推出,标志着 AI 在药物研发领域的应用进入了一个新的阶段。它不仅能够提高药物设计的效率和准确性,还能为创新疗法的设计开辟新的可能性。随着 AI 技术的不断发展和完善,我们有理由相信,Neo-1 将在未来的药物研发中发挥越来越重要的作用,为人类健康事业做出更大的贡献。

Neo-1 的成功,也为其他 AI 模型的设计和应用提供了宝贵的经验。例如,在模型的设计上,Neo-1 采用了统一生成与预测的架构,实现了对分子结构和性质的精准预测和设计。在数据的选择上,Neo-1 结合了 VantAI 自有的 NeoLink 数据集以及与 NVIDIA 共同开发的 PINDER & PLINDER 工具,保证了数据的质量和多样性。这些经验对于其他 AI 模型的设计和应用都具有重要的参考价值。

展望未来,随着 AI 技术的不断发展,我们期待 Neo-1 能够不断完善和升级,为药物研发带来更多的惊喜和突破。例如,可以进一步提高 Neo-1 的预测精度和生成速度,使其能够处理更加复杂的生物分子体系。还可以将 Neo-1 与其他 AI 模型相结合,例如分子动力学模拟和量子力学计算,从而实现对药物性质的更加全面和深入的理解。

总而言之,Neo-1 是 AI 在药物研发领域的一次重要突破。它不仅能够提高药物设计的效率和准确性,还能为创新疗法的设计开辟新的可能性。随着 AI 技术的不断发展和完善,我们有理由相信,Neo-1 将在未来的药物研发中发挥越来越重要的作用,为人类健康事业做出更大的贡献。