MIT博士生引领AI新突破:从可靠性到效率的全面革新

1

人工智能技术的快速发展正在深刻改变各行各业的运作方式,而AI系统的可靠性、效率和实用性成为决定其广泛应用的关键因素。近期,MIT-IBM Watson AI实验室暑期项目的五位博士生通过创新研究,从多个维度推动了AI技术的进步,为构建更加灵活、高效和真实可靠的AI系统奠定了基础。

AI可信度:建立信任的基石

在AI应用日益普及的今天,系统的可信度成为用户是否采用新工具和技术的重要考量因素。MIT数学研究生Andrey Bryutkin的研究聚焦于提升模型的可信度,他通过探索问题内部的数学结构,如系统方程和守恒定律,来开发更加可靠和稳健的解决方案。

探索"不确定性中的不确定性"

Bryutkin与IBM Research的Veronika Thost和MIT的Marzyeh Ghassemi教授合作,深入研究了大型语言模型(LLM)的"不确定性中的不确定性"。传统方法中,小型前馈神经网络(称为探针)与LLM一同训练,用于标记不可信的回答,但这些分类器可能产生假阴性,且仅提供点估计,无法充分揭示LLM何时失效。

MIT-IBM团队通过研究安全/不安全提示和问答任务,利用提示-标签对以及LLM的隐藏状态(如激活向量和最后token),测量梯度分数、提示敏感度和分布外数据,以评估探针的可靠性并识别难以预测的数据区域。这种方法还有助于识别潜在的标签噪声,这对于依赖高质量标注数据构建的AI系统至关重要。

知识图谱与LLM的高效整合

另一种确保LLM查询可信响应的方法是利用外部知识库来消除幻觉。对于结构化数据,如社交媒体连接、金融交易或企业数据库,知识图谱(KG)是自然的选择。然而,LLM与KG之间的通信通常使用固定的多代理流水线,计算效率低下且成本高昂。

物理研究生Jinyeop Song与IBM Research的Yada Zhu和MIT EECS副教授Julian Shun合作,创建了一种单代理、多轮强化学习框架,简化了这一过程。他们设计了一个托管Freebase和Wikidata KG的API服务器,以及一个LLM代理,该代理发出有针对性的检索操作从服务器获取相关信息。通过持续交互,代理将从KG收集的数据附加到上下文并响应用户查询。关键的是,该系统使用强化学习训练自身,以在准确性和完整性之间取得平衡。

计算效率:优化资源利用

模型响应的及时性和完整性与准确性同样重要,尤其是在处理长输入文本和主题随时间演化的内容时。EECS研究生Songlin Yang正在重新设计模型在推理每个步骤中能够处理的内容,专注于Transformer的局限性,如LLM中的问题。

超越传统Transformer架构

Yang与IBM Research的Rameswar Panda和MIT EECS的Yoon Kim教授合作,开发超越Transformer的下一代语言模型架构。Transformer面临两个关键限制:由于softmax注意力机制,长序列建模的计算复杂度高;以及RoPE(旋转位置编码)的弱归纳偏差导致的表达能力有限。

这意味着当输入长度翻倍时,计算成本会翻两番。RoPE使Transformer能够理解token的序列顺序,但在捕捉随时间变化的内部状态(如变量值)方面表现不佳,且仅限于训练期间看到的序列长度。

MIT-IBM团队探索了理论上合理且硬件高效的算法作为替代方案。他们采用线性注意力替代softmax注意力,降低了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好平衡。

增强模型表达能力

为了增强模型的表达能力,团队用基于Householder变换的动态反射位置编码替代了RoPE。这种方法能够实现更丰富的位置交互,从而更深入地理解序列信息,同时保持快速高效的计算。MIT-IBM团队的进展减少了Transformer将问题分解为多个步骤的需要,使其能够用更少的推理token处理更复杂的子问题。

多模态AI:视觉与语言的融合

视觉数据包含丰富的信息,人类大脑可以快速解析、内化并模仿。两位研究生正在探索通过代码利用视觉语言模型(VLM)实现这一目标的方法。

视觉文档理解:图表分析

在过去两个夏天,EECS研究生Jovana Kondic在MIT-IBM Watson AI实验室主任Aude Oliva和IBM Research的Rogerio Feris、Dan Gutfreund、Leonid Karlinsky(现就职于Xero)的指导下,探索了视觉文档理解,特别是图表分析。图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这些任务上仍存在困难。

为了促进此类任务的表现,Kondic的团队创建了一个大型开源合成图表数据集,用于训练和基准测试。他们的原型ChartGen通过一个流水线工作:将种子图表图像传递给VLM,VLM被提示读取图表并生成可能最初用于创建该图表的Python脚本。框架的LLM组件随后从多个图表的代码中迭代增强,最终产生超过20万对独特图表及其代码,涵盖近30种图表类型,以及支持数据和注释,如图表描述和问答对。团队正在进一步扩展其数据集,帮助实现企业应用(如金融和科学报告、博客等)中数据可视化的关键多模态理解。

数字设计:视觉纹理生成

EECS研究生Leonardo Hernandez Cano则专注于数字设计,特别是CAD应用的视觉纹理生成,目标是发现在VLM中实现这些功能的有效方法。他与Armando Solar-Lezama教授(EECS杰出教授)和IBM Research的Nathan Fulton领导的团队合作,创建了一个能够自主改进代码的程序合成系统。

该系统从用户以图像形式提供的纹理描述开始。它生成一个初始Python程序,该程序产生视觉纹理,并迭代改进代码,目标是找到产生与目标描述匹配的纹理的程序,从系统自身产生的数据中学习搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化,模仿真实材料。

研究成果的深远影响

这些项目及其背后的研究人员正在推动更加稳健和实用的AI发展。通过解决可靠性、效率和多模态推理的核心挑战,他们的工作为AI系统在现实世界企业应用和科学研究中的应用铺平了道路,使这些系统不仅更加强大,而且更加可靠和经济高效。

实用性与可靠性的平衡

这些研究的一个共同特点是注重实用性与技术严谨性的平衡。无论是Bryutkin的可信度研究、Song的效率优化,还是Kondic和Hernandez Cano的多模态应用,所有项目都从实际应用出发,同时保持技术创新的高度。

这种平衡对于AI技术的广泛采用至关重要。企业用户需要能够解决实际问题的AI工具,而这些工具必须足够可靠和高效,才能证明其投资价值。MIT-IBM Watson AI实验室的研究人员正是通过这种实用导向的创新,正在推动AI技术从实验室走向更广泛的市场应用。

跨学科合作的典范

这些研究项目还展示了跨学科合作的价值。数学、物理、计算机科学等不同背景的研究人员汇聚一堂,各自的专业知识相互补充,共同解决复杂的AI挑战。例如,Bryutkin将数学原理应用于AI可信度研究,Song将物理思维引入计算效率优化,而Kondic和Hernandez Cano则将艺术与设计概念融入多模态AI开发。

这种跨学科的合作模式不仅促进了技术创新,也为AI领域培养了具有多元视角的研究人才,为未来的AI发展奠定了更加坚实的基础。

未来展望

随着这些研究的深入和扩展,我们可以预见AI技术将在以下几个方向取得进一步突破:

  1. 更加智能的决策支持系统:基于可信度研究的进展,未来的AI系统将能够更好地理解自身的不确定性,为用户提供更加可靠的决策支持,特别是在医疗、金融等高风险领域。

  2. 高效的实时AI应用:计算效率的优化将使AI能够在资源受限的环境中运行,如移动设备和物联网设备,实现真正的实时AI应用。

  3. 无缝的多模态交互:多模态AI的发展将使人类能够以更加自然的方式与AI系统交互,通过语言、视觉、声音等多种方式进行沟通,大大提升用户体验。

  4. 行业特定AI解决方案:随着研究的深入,针对特定行业(如医疗、金融、制造等)的AI解决方案将更加成熟,解决行业特有的挑战,创造更大的商业价值。

结语

MIT-IBM Watson AI实验室暑期项目的研究生们通过他们的创新工作,正在塑造AI技术的未来。从提升模型可信度到优化计算效率,从多模态数据处理到实际应用开发,他们的研究覆盖了AI技术的多个关键领域,为构建更加可靠、高效和实用的AI系统奠定了基础。

这些研究成果不仅展示了AI技术的巨大潜力,也体现了学术界与产业界合作的强大力量。随着这些研究的进一步发展和应用,我们有理由相信,AI将在未来几年内迎来更加广泛和深入的应用,为人类社会带来更多的创新和价值。