在人工智能技术飞速发展的今天,如何确保AI工具的可靠性、效率和真实性已成为行业关注的焦点。MIT-IBM Watson AI Lab夏季项目的五位博士生通过创新研究,正在推动AI工具向更加灵活、高效和真实可靠的方向发展。他们的研究涵盖了从提升模型信任度到优化计算效率,再到多模态数据处理的多个关键领域,为未来AI技术的发展指明了方向。
AI工具采纳的关键因素
新工具和技术的采纳往往取决于用户对其可靠性、可访问性以及相对于现有方法和工作流程的成本效益的感知。MIT-IBM Watson AI Lab夏季项目首届班组的五位博士生正是利用最先进的资源,缓解AI应用的痛点,创造新的功能和特性,以促进AI的有用性和部署。从学习何时信任预测他人准确性的模型,到更有效地对知识库进行推理,这些研究共同构成了一个连贯的脉络,即实用且技术严谨的研究能够在各个领域产生更可靠、更有价值的模型。
通过构建探测器、路由器、新的注意力机制、合成数据集和程序合成管道,学生们的工作涵盖了安全性、推理效率、多模态数据和基于知识的推理等多个方面。他们的技术强调扩展性和集成性,始终以实际影响为目标。
学习信任与何时信任
MIT数学研究生Andrey Bryutkin的研究优先考虑模型的可靠性。他探索问题内部的结构,如控制系统的方程和守恒定律,以了解如何利用它们产生更可靠、更稳健的解决方案。结合实验室的研究,Bryutkin开发了一种方法来深入了解大型学习模型(LLMs)行为的本质。他与IBM Research的Veronika Thost和MIT电气工程与计算机科学系(EECS)副教授、医学工程科学与信息决策系统实验室成员Marzyeh Ghassemi一起,探索了LLMs的"不确定性中的不确定性"。

传统上,被称为探测器的微小前馈神经网络(深两到三层)与LLMs一起训练,用于向开发者标记不可信的答案;然而,这些分类器也可能产生假阴性,并且只提供点估计,无法提供关于LLMs何时失效的太多信息。通过研究安全/不安全提示和问答任务,MIT-IBM团队使用提示-标签对以及来自LLMs的隐藏状态(如激活向量和最后标记)来测量梯度分数、提示敏感度和分布外数据,以确定探测器的可靠性并学习难以预测的数据区域。他们的方法还有助于识别潜在的标记噪声,这是一个关键功能,因为AI系统的可靠性完全依赖于构建其上的标记数据的质量和准确性。更准确、更一致的探测器对于IBM Granite Guardian模型系列等关键数据应用尤为重要。
另一种确保LLMs查询可信响应的方法是使用外部、可信的知识库来消除幻觉。对于结构化数据,如社交媒体连接、金融交易或企业数据库,知识图谱(KG)是自然的选择;然而,LLMs和KGs之间的通信通常使用固定的多代理管道,计算效率低下且成本高昂。物理研究生Jinyeop Song与IBM研究人员和EECS副教授Julian Shun合作,创建了一个单代理、多轮、强化学习框架来简化这一过程。该团队设计了一个托管Freebase和Wikidata KGs的API服务器,这些KGs包含基于网络的通用知识数据,以及一个向服务器发出检索操作以获取相关信息的LLM代理。然后,通过持续的双向交流,代理将从KGs收集的数据附加到上下文并响应查询。关键是,该系统使用强化学习来训练自己,以提供在准确性和完整性之间取得平衡的答案。该框架将API服务器与单个强化学习代理配对,以协调基于数据的推理,提高准确性、透明度、效率和可移植性。
智能计算资源分配
模型响应的及时性和完整性与其准确性同等重要。这对于处理长输入文本以及其中元素(如故事主题)随时间变化的情况尤其如此,因此EECS研究生Songlin Yang正在重新设计模型在推理每个步骤中能够处理的内容。专注于transformer的局限性,如LLMs中的局限性,IBM Research的Rameswar Panda和EECS教授Yoon Kim与Yang一起开发超越transformer的下一代语言模型架构。
Transformers面临两个关键限制:由于softmax注意力机制,长序列建模中的计算复杂度高;以及由于RoPE(旋转位置编码)的弱归纳偏置,表达能力有限。这意味着当输入长度翻倍时,计算成本会翻两倍。RoPE使transformers能够理解标记的序列顺序(即单词);然而,它并不擅长捕捉随时间变化的内部状态变化,如变量值,并且仅限于训练期间看到的序列长度。
为解决这些问题,MIT-IBM团队探索了理论上合理且硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,降低了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。
为了提高表达能力,他们用基于Householder变换的动态反射位置编码替换了RoPE。这种方法 enables更丰富的位置交互,以更深入地理解顺序信息,同时保持快速高效的计算。MIT-IBM团队的进步减少了transformers将问题分解为许多步骤的需要,而是使它们能够用更少的推理标记处理更复杂的子问题。
视觉数据处理的新视野
视觉数据包含人类大脑可以快速解析、内化然后模仿的丰富信息。通过视觉语言模型(VLMs),两位研究生正在探索通过代码实现这一目标的方法。
在过去的两个夏天,在MIT-IBM Watson AI Lab主任、计算机科学与人工智能实验室高级研究科学家Aude Oliva以及IBM Research的Rogerio Feris、Dan Gutfreund和Leonid Karlinsky(现就职于Xero)的指导下,EECS的Jovana Kondic探索了视觉文档理解,特别是图表。这些包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这方面仍然存在困难。为了促进此类任务的表现,Kondic的团队致力于创建一个大型、开源的合成图表数据集,可用于训练和基准测试。

通过他们的原型ChartGen,研究人员创建了一个管道,将种子图表图像通过VLM,提示其读取图表并生成可能最初用于创建图表的Python脚本。该框架的LLM组件然后从许多图表中迭代地增强代码,最终产生超过200,000个独特的图表及其代码对,涵盖近30种图表类型,以及支持数据和注释,如图表描述和问答对。团队正在进一步扩展他们的数据集,帮助实现企业应用(如金融和科学报告、博客等)中对数据可视化的关键多模态理解。
与图表不同,EECS研究生Leonardo Hernandez Cano专注于数字设计,特别是CAD应用的视觉纹理生成,以及发现在VLMs中实现这些功能的有效方法。与EECS教授、MIT Schwarzman计算机学院计算杰出教授Armando Solar-Lezama和IBM Research的Nathan Fulton领导的实验室团队合作,Hernandez Cano创建了一个能够自主学习改进代码的程序合成系统。该系统从用户以图像形式提供的纹理描述开始。然后生成一个初始Python程序,该程序产生视觉纹理,并迭代地改进代码,目标是找到产生与目标描述匹配的纹理的程序,学习从系统自身产生的数据中搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化,模仿真实材料。
研究成果的实际应用价值
这些研究项目和背后的研究人员共同推动着更加健壮和实用的人工智能发展。通过解决可靠性、效率和多模态推理的核心挑战,这些工作为AI系统铺平了道路,这些系统不仅更强大,而且对于现实世界的企业和科学应用来说更可靠、更具成本效益。
企业应用场景
在企业环境中,这些研究成果可以显著提升AI系统的实用价值。例如,Bryutkin的探测器技术可以帮助企业在使用AI系统时识别潜在风险,特别是在金融、医疗等对准确性要求极高的领域。Song的强化学习框架可以优化企业知识库的查询效率,减少计算资源消耗,同时提高响应质量。
科学计算领域
在科学计算领域,Yang的架构改进可以处理更复杂的科学模型和更长的数据序列,为气候模拟、基因组分析等计算密集型任务提供更高效的解决方案。Kondic的ChartGen数据集可以加速科学可视化的开发,使研究人员能够更有效地分析复杂数据。
多模态交互的未来
Hernandez Cano的纹理生成系统代表了多模态交互的未来发展方向,这种技术可以应用于虚拟现实、增强现实和数字孪生等领域,创造更加逼真的虚拟环境,为教育培训、产品设计等行业带来革命性变化。
技术创新的深远影响
这些研究项目的深远影响不仅体现在技术层面,更在于它们如何重新定义AI的发展方向。通过将理论研究与实际应用紧密结合,这些博士生和他们的导师们展示了学术研究的实际价值,也为AI技术的未来发展提供了清晰的方向。
可靠性与信任的建立
在AI系统日益深入我们生活的今天,建立用户对AI的信任至关重要。Bryutkin和团队的工作直接解决了这一核心问题,通过开发更可靠的探测器技术,帮助用户识别AI系统的局限性,从而建立更健康的AI使用模式。
计算效率的提升
随着AI模型规模的不断扩大,计算效率成为制约其应用的关键因素。Song和Yang的研究从不同角度优化了计算资源的使用,使AI系统能够在有限的计算资源下处理更复杂的任务,这将为AI技术的普及扫清重要障碍。
多模态融合的突破
人类认知是多模态的,真正的智能系统也需要能够处理和理解多种形式的数据。Kondic和Hernandez Cano的研究在视觉数据处理方面取得了重要突破,这些技术将推动AI系统向更接近人类认知的方向发展,为更自然的人机交互奠定基础。
未来研究方向
基于这些研究成果,未来AI研究可能在以下几个方向取得进一步突破:
自主学习系统的深化
当前AI系统大多需要大量人工标注数据,未来的发展方向是实现更高效的自主学习系统。通过结合强化学习和程序合成技术,AI系统可以从更少的示例中学习,减少对人工标注的依赖。
跨领域知识迁移
人类能够灵活地将一个领域的知识应用到另一个领域,未来的AI系统也需要具备这种跨领域迁移能力。通过改进知识库交互和推理机制,AI系统可以更好地整合不同领域的知识,解决复杂问题。
人机协作的新模式
AI与人类的协作模式也将不断创新。未来的AI系统不仅能够执行任务,还能理解人类意图,提供决策支持,实现真正的人机协同智能。
结语
MIT-IBM Watson AI Lab夏季项目的五位博士生通过他们的创新研究,正在推动AI技术向更加灵活、高效和真实可靠的方向发展。他们的工作不仅解决了当前AI应用中的核心痛点,也为未来AI技术的发展指明了方向。通过将理论研究与实际应用紧密结合,这些研究成果将为AI技术在企业、科学和日常生活中的广泛应用铺平道路,最终实现AI技术的真正价值。








