在人工智能领域,新工具和技术的采用往往取决于用户对其可靠性、可访问性以及相对于现有方法和工作流程的改进感知。来自MIT-IBM Watson AI实验室暑期项目首届班的五位博士生,正利用最先进的资源,缓解AI痛点,创造新功能和特性,以提升AI的实用性和部署能力——从学习何时信任预测其他模型准确性的模型,到更有效地基于知识库进行推理。这些学生与导师们的努力形成了一条主线,即实用且技术严谨的研究能够在各个领域带来更可靠、更有价值的模型。
通过构建探测器、路由器、新的注意力机制、合成数据集和程序合成管道,学生们的研究涵盖了安全性、推理效率、多模态数据和基于知识的推理。他们的技术强调扩展性和集成性,始终以实际影响为目标。
学习信任及其边界
MIT数学研究生Andrey Bryutkin的研究优先考虑模型的可信度。他寻求问题内部的结构,如控制系统的方程和守恒定律,以了解如何利用它们来产生更可靠、更稳健的解决方案。结合这一点并与实验室合作,Bryutkin开发了一种方法来深入了解大型学习模型(LLMs)行为的本质。与IBM研究院的Veronika Thost以及MIT电气工程与计算机科学(EECS)系的副教授、医学工程科学研究所和信息决策系统实验室成员Marzyeh Ghassemi一起,Bryutkin探索了LLMs的"不确定性中的不确定性"。
传统上,被称为探测器的微小前馈神经网络(深度为两层到三层)与LLMs一起训练,用于向开发者标记不可靠的答案;然而,这些分类器也可能产生假阴性,并且只提供点估计,这无法提供关于LLM何时失效的太多信息。通过研究安全/不安全提示和问答任务,MIT-IBM团队使用了提示-标签对,以及来自LLM的隐藏状态(如激活向量和最后标记),以测量梯度分数、提示敏感度和分布外数据,以确定探测器的可靠性并学习难以预测的数据区域。他们的方法还有助于识别潜在的标签噪声。这是一个关键功能,因为AI系统的可信度完全依赖于构建其基础的数据标签的质量和准确性。更准确、一致的探测器对于IBM Granite Guardian模型系列等具有关键数据的应用领域尤为重要。
确保LLM查询响应可信的另一种方法是使用外部、可信的知识库来消除幻觉。对于结构化数据,如社交媒体连接、金融交易或公司数据库,知识图谱(KG)是自然的选择;然而,LLM和KG之间的通信通常使用固定的、多代理的管道,这在计算上效率低下且成本高昂。针对这一问题,物理学研究生Jinyeop Song与IBM研究院的研究人员和EECS副教授Julian Shun一起,创建了一个单代理、多回合、强化学习框架,简化了这一过程。该团队设计了一个托管Freebase和Wikidata KGs的API服务器,这些KGs包含基于网络的通用知识数据,以及一个向服务器发出目标检索操作的LLM代理,以获取相关信息。然后,通过持续的前后交互,代理将从KGs收集的数据附加到上下文中并响应该查询。关键是,该系统使用强化学习来训练自己,以提供在准确性和完整性之间取得平衡的答案。该框架将API服务器与单个强化学习代理配对,以协调基于数据的推理,提高准确性、透明度、效率和可移植性。
智能计算资源分配
模型响应的及时性和完整性与其准确性具有同等重要性。这对于处理长输入文本以及其中元素(如故事主题)随时间变化的情况尤其如此。因此,EECS研究生Songlin Yang正在重新设计模型在推理每一步可以处理的内容。专注于Transformer的局限性,如LLM中的局限性,IBM研究院的Rameswar Panda和EECS的NBX教授、副教授Yoon Kim与Yang一起开发超越Transformer的下一代语言模型架构。
Transformer面临两个关键限制:由于softmax注意力机制,长序列建模具有高计算复杂度;以及由于RoPE(旋转位置编码)弱归纳偏置导致的有限表达能力。这意味着当输入长度翻倍时,计算成本会翻两倍。RoPE使Transformer能够理解标记(即单词)的序列顺序;然而,它在捕捉随时间变化的内部状态(如变量值)方面做得不够好,并且仅限于训练期间看到的序列长度。
为解决这一问题,MIT-IBM团队探索了理论上合理且硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,减少了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。
通过增强表达能力,他们用基于Householder变换的动态反射位置编码替代了RoPE。这种方法能够实现更丰富的位置交互,以更深入地理解顺序信息,同时保持快速高效的计算。MIT-IBM团队的进步减少了Transformer将问题分解为许多步骤的需要,而是使它们能够用更少的推理标记处理更复杂的子问题。
视觉理解的新视野
视觉数据包含人类大脑能够快速解析、内化然后模仿的丰富信息。通过视觉语言模型(VLMs),两位研究生正在探索通过代码实现这一目标的方法。
在过去两个夏天,在MIT-IBM Watson AI实验室主任、计算机科学与人工智能实验室高级研究科学家Aude Oliva,以及IBM研究院的Rogerio Feris、Dan Gutfreund和Leonid Karlinsky(现就职于Xero)的指导下,EECS的Jovana Kondic探索了视觉文档理解,特别是图表。这些图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这方面仍然存在困难。为了促进此类任务的表现,Kondic的团队着手创建一个大型、开源的合成图表数据集,该数据集可通过代码生成,用于训练和基准测试。
通过他们的原型ChartGen,研究人员创建了一个管道,该管道将种子图表图像传递给VLM,提示其读取图表并生成一个可能最初用于创建该图表的Python脚本。该框架的LLM组件然后从许多图表中迭代地增强代码,最终产生超过200,000个独特的图表及其代码对,涵盖近30种图表类型,以及支持数据和注释,如图表描述和问答对。该团队正在进一步扩展其数据集,帮助为金融和科学报告、博客等企业应用的关键多模态理解提供支持。
与图表不同,EECS研究生Leonardo Hernandez Cano则关注数字设计,特别是CAD应用的视觉纹理生成,以及发现高效方法以在VLMs中实现这些能力。与Armando Solar-Lezama教授(EECS教授、MIT Schwarzman计算机学院杰出计算教授)领导的实验室团队以及IBM研究院的Nathan Fulton合作,Hernandez Cano创建了一个能够自主学习改进代码的程序合成系统。该系统从用户以图像形式提供的纹理描述开始。然后生成一个初始Python程序,该程序产生视觉纹理,并迭代地改进代码,目标是找到一个产生与目标描述匹配的纹理的程序,学会从系统自身产生的数据中搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等特性的可视化,模仿真实材料。
协同推进AI实用化
当综合这些项目和背后的人员时,他们正在朝着更强大、更实用的AI进行协同推进。通过解决可靠性、效率和多模态推理的核心挑战,这些工作为AI系统铺平了道路,这些系统不仅更强大,而且在现实世界的企业和科学应用中更可靠、更具成本效益。
这些研究展示了学术界与产业界合作的强大力量。通过将MIT的前沿研究与IBM的实际应用需求相结合,这些博士生不仅解决了当前AI系统的局限性,还为未来技术的发展指明了方向。无论是提高模型的可解释性、优化计算资源,还是增强多模态理解能力,这些创新都将推动AI技术向更成熟、更可靠的方向发展。
随着AI技术在各行各业的深入应用,这些基础性研究的重要性将愈发凸显。通过解决AI系统的核心痛点,这些研究不仅提高了技术的可靠性,也为AI的更广泛铺平了道路。在未来,我们可以期待看到更多这样的创新研究,它们将共同塑造一个更加智能、可靠的AI未来。








