在过去的十年中,诊断和测序技术的成本急剧下降,研究人员围绕疾病和生物学收集了前所未有的海量数据。然而,科学家们希望从数据中发现新疗法的过程中,往往需要依赖具有软件工程经验的专业人士。这一瓶颈催生了Watershed Bio的诞生——一家由MIT校友创立的创新企业,致力于为非软件工程背景的研究人员提供无需编写代码即可进行大规模数据分析的平台。
从数据困境到解决方案
"科学家们希望了解该领域的软件和数据分析部分,但他们不想成为编写代码才能理解数据的软件工程师,"Watershed Bio的联合创始人兼CEO Jonathan Wang '13, SM '15表示,"通过Watershed,他们不必成为程序员。"
Watershed的云平台提供工作流模板和可定制界面,帮助用户探索和分享各类数据,包括全基因组测序、转录组学、蛋白质组学、代谢组学、高内涵成像、蛋白质折叠等。这一创新平台正在被工业界和学术界的大型和小型研究团队用于推动发现和决策制定。
当科学期刊中描述新的先进分析技术时,这些技术可以立即作为模板添加到Watershed平台中,使尖端工具对不同背景的研究人员更加易于获取和协作。
"生物学数据呈指数级增长,生成这些数据的测序技术只会越来越好、越来越便宜,"Wang指出,"来自MIT的背景让我对这个问题的解决充满信心:这是一个棘手的技术问题,也是一个有意义的问题,因为这些研究人员正在努力治疗疾病。他们知道所有这些数据都有价值,但他们在利用这些数据时遇到了困难。我们希望能帮助他们更快地解锁更多见解。"
无代码发现的背后故事
Watershed的诞生源于Wang对生物学和计算机科学交叉领域的深刻理解。在MIT期间,Wang最初主修生物学,但很快被计算机科学能够构建可扩展至数百万人的解决方案的可能性所吸引。最终,他从电气工程与计算机科学系(EECS)获得了学士和硕士学位。
Wang还在MIT的一个生物学实验室实习,他对实验的缓慢和劳动密集程度感到惊讶。
"我看到了生物学和计算机科学之间的差异,在计算机科学中,你拥有这些动态环境,可以让你立即获得反馈,"Wang回忆道,"即使是单独编写代码的人,也有大量工具可供使用。"
在MIT从事机器学习和高性能计算工作时,Wang与一些同学共同创立了一家高频交易公司。他的团队雇佣了具有数学和物理等学科博士学位背景的研究人员来开发新的交易策略,但他们很快发现流程中存在瓶颈。
"进展缓慢,因为研究人员习惯于构建原型,"Wang解释道,"这些是他们可以在本地机器上运行的小型模型近似。为了将这些方法投入生产,他们需要工程师使它们能够在计算集群上以高吞吐量方式工作。但工程师不理解研究的本质,因此有很多来回沟通。这意味着你认为一天就能实现的想法实际上需要几周时间。"
为了解决这个问题,Wang的团队开发了一个软件层,使得构建生产就绪模型就像在笔记本电脑上构建原型一样简单。毕业后几年,Wang注意到DNA测序等技术已经变得廉价且普及。
"瓶颈不再是测序,所以人们说,'让我们对所有东西进行测序',"Wang回忆道,"限制因素变成了计算。人们不知道如何处理生成的所有数据。生物学家在等待数据科学家和生物信息学家帮助他们,但这些人并不总是足够深入地理解生物学。"
这一情况让Wang感到熟悉。
"这完全类似于我们在金融领域看到的情况,研究人员试图与工程师合作,但工程师从未完全理解,而且人们等待工程师的过程中存在大量低效率,"Wang说,"与此同时,我了解到生物学家渴望运行这些实验,但他们感到存在巨大的鸿沟,认为自己必须成为软件工程师或只专注于科学。"
2019年,Wang与MIT前同学、医生Mark Kalinich '13共同正式创立了Watershed,Kalinich目前已不再参与公司的日常运营。
平台如何加速生物学研究
Watershed的云平台设计理念源于对生物学研究特殊性的深刻理解。与传统的软件产品不同,Wang强调:"我避免使用'产品'这个词,因为这意味着你部署某些东西然后永远按规模运行它。研究不是这样的。研究是关于提出想法、测试它,并利用结果提出另一个想法。你能够设计、实施和执行实验的速度越快,你就能越快地进入下一个实验。"
该平台的核心优势在于它为不同背景的研究人员提供了易用性和可定制性的完美平衡。平台支持多种数据类型和分析方法,包括:
- 全基因组测序:帮助研究人员理解基因组变异与疾病之间的关系
- 转录组学:分析基因表达模式,揭示疾病机制
- 蛋白质组学:研究蛋白质结构和功能,为药物开发提供靶点
- 代谢组学:探索代谢通路,发现生物标志物
- 高内涵成像:提供细胞和组织水平的可视化数据
- 蛋白质折叠:预测蛋白质三维结构,如整合了AlphaFold等AI工具
Watershed还支持从科学期刊中不断涌现的新分析方法,当新技术被描述时,可以迅速将其整合为平台模板,使研究人员能够立即应用最新工具。
实际应用与影响
Watershed正在被学术界和不同规模公司的研究人员使用,生物技术和制药公司的高管也使用Watershed来决定新实验和药物候选。
"我们在所有这些领域都看到了成功,共同点是人们理解研究但不是计算机科学或软件工程方面的专家,"Wang表示,"看到这个行业的发展令人兴奋。对我而言,作为MIT的毕业生,现在回到Watershed所在的Kendall广场很棒。这里是许多前沿进展发生的地方。我们正在努力为生物学的未来做出贡献。"
Watershed的影响体现在多个层面:
加速药物发现:通过分析大规模基因组数据,研究人员能够更快地识别药物靶点和潜在治疗分子。
个性化医疗:支持对个体基因组数据的分析,帮助医生为患者制定个性化治疗方案。
生物标志物发现:通过整合多组学数据,研究人员能够发现新的疾病生物标志物,提高诊断准确性。
临床试验优化:帮助研究人员筛选最适合特定干预措施的患者群体,提高临床试验成功率。
跨学科合作:平台打破了生物学家、计算机科学家和临床医生之间的沟通障碍,促进了真正的跨学科研究。
未来展望
Watershed Bio的成功反映了生物学研究正在经历的范式转变。随着数据量的持续增长和计算能力的提升,传统的数据分析方法已无法满足现代生物学的需求。Watershed代表了一种新兴趋势:将复杂的计算工具民主化,使专业研究人员能够专注于科学问题本身,而不是被技术细节所困扰。
"如果你能帮助科学家解锁见解的速度不是快一点,而是快10倍或20倍,那真的能产生很大差异,"Wang强调,"我们的目标是让研究人员能够更快地从数据中获得洞察,从而加速科学发现和医学进步。"
随着人工智能和机器学习在生物学领域的应用日益广泛,Watershed等无代码平台将在未来发挥更加重要的作用。它们不仅能够降低技术门槛,还能促进数据共享和协作,最终推动生物学研究进入一个更加开放、高效和创新的新时代。
结语
Watershed Bio的案例展示了如何通过技术创新解决实际科研痛点。通过将复杂的生物数据分析工具转化为直观易用的平台,Watershed不仅提高了研究效率,还促进了跨学科合作,为个性化医疗和药物研发开辟了新的可能性。随着生物数据量的持续增长,这类无代码平台将成为现代生物学研究的标配工具,帮助科学家们更好地理解和利用数据,推动生命科学的进步。