Lingshu:阿里达摩院发布医疗多模态语言模型,赋能医学AI新突破

2

在人工智能领域,大型语言模型(LLM)正以前所未有的速度发展,特别是在医学领域。阿里巴巴达摩院推出的Lingshu,正是一款专注于医学领域的多模态大型语言模型。它不仅支持超过12种医学成像模态,如X光、CT扫描和MRI等,还在多模态问答、文本问答及医学报告生成等任务中表现出卓越的性能。Lingshu的出现,无疑为医学AI领域注入了新的活力。

Lingshu模型拥有7B和32B两个参数版本,其中32B版本在多个医学多模态问答任务中,甚至超越了GPT-4.1等专有模型。更为重要的是,Lingshu项目还推出了MedEvalKit评估框架,整合了主流的医学基准测试,旨在推动医学AI模型的标准化评估和发展。这一举措对于整个行业来说,具有里程碑式的意义。

Lingshu

那么,Lingshu究竟有哪些主要功能?它又是如何实现这些功能的呢?让我们一起深入了解。

Lingshu的主要功能

Lingshu的功能非常强大,涵盖了医学领域的多个方面:

  1. 多模态医学问答:Lingshu能够处理多种医学成像模态的视觉问答任务。这意味着,无论是X光片、CT扫描还是MRI图像,Lingshu都能根据输入的图像和相关问题,生成准确的答案。这对于医生来说,无疑是一个强大的辅助工具。

  2. 医学报告生成:高质量的医学报告对于临床医生来说至关重要。Lingshu能够根据输入的医学图像,生成详细的“发现”和“印象”部分,为临床医生提供有价值的参考,极大地提高了报告编写的效率。

  3. 医学知识问答:Lingshu不仅仅能处理图像,还能回答纯文本的医学问题。它涵盖了广泛的医学知识,为医学学生、临床医生和研究人员提供准确的信息。

  4. 医学推理与诊断支持:Lingshu具备强大的医学推理能力,可以根据输入的医学图像和文本信息,进行复杂的推理和诊断支持。这对于一些复杂的病例,可以为医生提供重要的参考。

  5. 医学图像理解与标注:Lingshu能够理解和标注医学图像中的关键特征,如病变位置、类型和严重程度。它还可以生成详细的图像描述,帮助医生更好地理解图像内容。

Lingshu的技术原理

Lingshu之所以能够实现这些强大的功能,离不开其背后的技术原理。Lingshu的技术原理主要包括数据整理、模型架构和多阶段训练三个方面。

1. 数据整理

数据是人工智能的基石。Lingshu在数据整理方面下了很大的功夫,具体包括以下几个步骤:

  • 数据收集:Lingshu从多种来源收集医学成像数据、医学文本数据和通用领域数据,确保数据的全面性。
  • 数据清洗:为了保证数据的质量,Lingshu基于图像过滤、去重和文本清理等技术,确保数据的质量和相关性。
  • 数据合成:Lingshu还通过生成高质量的医学标题、视觉问答(VQA)样本和推理轨迹等方式,丰富训练数据。

2. 模型架构

Lingshu的模型架构是其核心技术之一。Lingshu基于Qwen2.5-VL模型架构,该架构包含三个关键组件:

  • 大型语言模型(LLM):用于处理文本输入和生成文本输出。
  • 视觉编码器:用于提取医学图像的视觉特征。
  • 投影器:用于将视觉特征映射到语言模型的表示空间。

3. 多阶段训练

Lingshu采用了多阶段训练的方法,逐步嵌入医学专业知识,从而显著提升在医学领域的推理和问题解决能力。多阶段训练包括以下几个阶段:

  • 医学浅层对齐:通过少量医学图像文本对进行微调,让模型准确编码医学图像生成相应的描述。
  • 医学深层对齐:引入更大规模、更高质量和语义更丰富的医学图像文本对数据集,进一步整合医学知识。
  • 医学指令调整:基于大规模的医学指令数据优化模型,提高执行特定任务指令的能力。
  • 医学导向的强化学习:采用强化学习与可验证奖励(RLVR)范式,增强模型的医学推理能力。

此外,Lingshu还推出了MedEvalKit评估框架,整合了多个多模态和文本医学基准测试,支持多种问题格式,包括多项选择题、封闭式问题、开放式问题和医学报告生成。该框架提供标准化的数据预处理格式和后处理协议,以及一致的模型部署和推理接口,支持快速集成和一键评估。

Lingshu的应用场景

Lingshu在医学领域有着广泛的应用前景:

  1. 医学图像诊断:Lingshu可以处理多种医学成像模态的视觉问答任务,分析图像中的异常并提供诊断建议。通过生成详细的图像描述和标注关键特征,辅助医生进行准确诊断。

  2. 医学报告生成:Lingshu可以依据医学图像生成高质量的放射学报告和病理报告,涵盖“发现”与“印象”部分,为临床医生提供重要参考,提高报告编写效率与质量。

  3. 医学知识问答:Lingshu可以提供准确的医学知识,帮助医学学生、专业人士以及临床医生获取所需信息,做出更明智的决策。

  4. 医学研究:在医学研究中,Lingshu可以协助整理和分析医学图像与文本数据,加速研究进程。

  5. 公共卫生:Lingshu能够处理公共卫生数据,支持流行病学研究,计算归因风险等,为公共卫生决策提供支持。

结语

Lingshu的出现,无疑为医学AI领域带来了新的突破。它不仅在技术上取得了显著的进展,更在应用场景上展现出了巨大的潜力。随着人工智能技术的不断发展,相信Lingshu将在医学领域发挥越来越重要的作用,为人类的健康事业做出更大的贡献。

Lingshu的成功,也为我们提供了一些重要的启示。首先,数据是人工智能的基础,高质量的数据是模型成功的关键。其次,模型架构的设计至关重要,需要根据具体的应用场景进行优化。最后,多阶段训练是一种有效的模型训练方法,可以逐步提升模型的性能。

未来,我们期待看到更多像Lingshu这样的医学AI模型出现,为医学领域带来更多的创新和突破。