在人工智能技术快速发展的今天,如何确保AI系统的可靠性、提高计算效率并增强多模态处理能力已成为行业关注的焦点。五位参与MIT-IBM Watson AI实验室暑期项目的博士生通过创新研究,正在从多个维度推动AI工具向更灵活、高效和真实方向发展。他们的研究不仅解决了当前AI应用中的痛点问题,也为未来AI技术的发展指明了方向。
学习信任:何时相信AI模型
MIT数学系研究生Andrey Bryutkin的研究重点在于提升模型的可靠性。他深入探索问题内部结构,如系统方程和守恒定律,以理解如何利用这些原理产生更可靠、更稳健的解决方案。通过与实验室合作,Bryutkin开发了一种能够洞察大型学习模型(LLM)行为本质的方法。他与IBM Research的Veronika Thost以及MIT电气工程与计算机科学系副教授Marzyeh Ghassemi共同研究了LLM的"不确定性中的不确定性"问题。
传统方法中,小型前馈神经网络(称为探针)与LLM一起训练,用于标记不可靠的答案;然而,这些分类器可能产生假阴性,且仅提供点估计,无法充分揭示LLM何时失效。通过研究安全/不安全提示和问答任务,MIT-IBM团队利用提示-标签对以及LLM的隐藏状态(如激活向量和最后标记),测量梯度分数、提示敏感度和分布外数据,以评估探针可靠性并识别难以预测的数据区域。他们的方法还有助于识别潜在的标签噪声,这对AI系统的可靠性至关重要,因为AI系统的完全依赖于构建其上的标记数据的质量和准确性。

确保LLM查询响应可信的另一种方法是借助外部可信知识库消除幻觉。对于结构化数据,如社交媒体连接、金融交易或企业数据库,知识图谱(KG)是自然选择;然而,LLM与KG之间的通信通常使用计算效率低下且成本高昂的多代理流水线。针对这一问题,物理学研究生Jinyeop Song与IBM Research的Yada Zhu和MIT EECS副教授Julian Shun共同创建了一个单代理、多轮、强化学习框架,简化了这一过程。团队设计了一个托管Freebase和Wikidata KG(包含基于网络的一般知识数据)的API服务器,以及一个向服务器发出针对性检索操作的LLM代理。通过持续交互,代理将从KG收集的数据附加到上下文中并响应用户查询。关键的是,该系统使用强化学习训练自身,以提供在准确性和完整性之间取得平衡的答案。该框架将API服务器与单个强化学习代理配对,以协调数据推理,提高了准确性、透明度、效率和可移植性。
智能分配计算资源
模型响应的及时性和完整性与其准确性同等重要。这一点在处理长输入文本以及其中元素(如故事主题)随时间变化的情况下尤为突出。因此,EECS研究生Songlin Yang正在重新设计模型在推理每一步能够处理的内容。他专注于Transformer(如LLM中使用的)的局限性,与IBM Research的Rameswar Panda和MIT EECS的Yoon Kim教授合作,开发超越Transformer的下一代语言模型架构。
Transformer面临两个关键局限性:由于softmax注意力机制,长序列建模具有高计算复杂度;以及由于RoPE(旋转位置编码)弱归纳偏置导致的表达能力有限。这意味着当输入长度翻倍时,计算成本会翻两倍。RoPE使Transformer能够理解标记(即单词)的序列顺序;然而,它无法很好地捕捉随时间变化的内部状态变化,如变量值,并且仅限于训练期间看到的序列长度。
为解决这些问题,MIT-IBM团队探索了理论上合理且硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,减少了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。
为增强表达能力,他们用基于Householder变换的动态反射位置编码替换了RoPE。这种方法能够实现更丰富的位置交互,从而更深入地理解顺序信息,同时保持快速高效的计算。MIT-IBM团队的进展减少了Transformer将问题分解为多个步骤的需要,而是使其能够用更少的推理标记处理更复杂的子问题。
视觉数据的新理解
视觉数据包含丰富信息,人类大脑可以快速解析、内化并模仿。两名研究生正在使用视觉语言模型(VLM)探索通过代码实现这一目标的方法。
在过去两个夏天,在MIT-IBM Watson AI实验室主任、MIT计算机科学与人工智能实验室高级研究科学家Aude Oliva,以及IBM Research的Rogerio Feris、Dan Gutfreund和Leonid Karlinsky(现就职于Xero)的指导下,EECS研究生Jovana Kondic探索了视觉文档理解,特别是图表。图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这些任务上仍面临挑战。为促进此类任务的表现,Kondic的团队着手创建一个大型、开源的合成图表数据集,可用于训练和基准测试。
通过他们的原型ChartGen,研究人员创建了一个流水线,将种子图表图像传递给VLM,VLM被提示读取图表并生成可能最初用于创建该图表的Python脚本。该框架的LLM组件然后从许多图表中迭代增强代码,最终产生超过20万对独特图表及其代码,涵盖近30种图表类型,以及支持数据和注释,如图表描述和问答对。团队正在进一步扩展其数据集,帮助实现企业应用(如财务和科学报告、博客等)对数据可视化的关键多模态理解。

与Kondic不同,EECS研究生Leonardo Hernandez Cano专注于数字设计,特别是CAD应用的视觉纹理生成,目标是发现在VLM中实现这些功能的有效方法。他与由EECS教授、MIT Schwarzman计算机学院杰出计算教授Armando Solar-Lezama和IBM Research的Nathan Fulton领导的实验室团队合作,创建了一个能够自主学习改进代码的程序合成系统。该系统从用户以图像形式提供的纹理描述开始。它生成一个产生视觉纹理的初始Python程序,并迭代改进代码,目标是找到一个产生与目标描述匹配的纹理的程序,从系统自身产生的数据中学习搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化效果,模仿真实材料。
研究成果的深远影响
这些项目及其背后的研究人员正在共同推动向更强大、更实用的人工智能迈进。通过解决可靠性、效率和多模态推理的核心挑战,他们的工作为AI系统在现实企业应用和科学研究中的应用开辟了道路,这些系统不仅更强大,而且更可靠、更具成本效益。
Bryutkin的探针研究为AI系统的可靠性提供了新方法,特别是在医疗和金融等关键领域。他的工作解决了AI系统长期面临的信任问题,为构建更负责任的AI奠定了基础。Song的知识图谱交互框架则显著提高了AI系统处理结构化数据的效率,为企业级应用提供了更实用的解决方案。
Yang对Transformer架构的重新设计解决了长序列处理的计算瓶颈,这一突破对于处理长文档、代码库或科学数据集等应用场景具有重要意义。Kondic的ChartGen数据集为视觉理解研究提供了宝贵资源,有望加速图表理解和生成技术的发展。
Hernandez Cano的视觉纹理生成系统展示了AI在创意设计领域的潜力,这一研究可能对数字内容创作、材料科学和产品设计等多个领域产生深远影响。
未来发展方向
这些研究项目代表了AI技术发展的前沿方向,未来可能沿着以下几个路径进一步发展:
多模态融合的深化:随着视觉、语言和模态数据的进一步融合,AI系统将能够更全面地理解和响应复杂查询。
可解释性的增强:随着AI系统在关键领域应用的深入,提高模型决策过程的透明度和可解释性将成为研究重点。
边缘计算的整合:将高效的AI模型部署到边缘设备,实现低延迟、高隐私的本地推理。
自主学习能力的提升:发展能够持续学习和适应新环境的AI系统,减少对人工监督的依赖。
跨领域知识的迁移:构建能够将一个领域学到的知识迁移到另一个领域的通用AI系统,提高学习效率。
结语
MIT-IBM Watson AI实验室暑期项目博士生的研究展示了学术界与产业界合作推动AI技术进步的强大力量。通过解决AI系统可靠性、计算效率和多模态处理等关键挑战,他们的工作不仅提升了当前AI系统的实用性,也为未来更智能、更可靠的AI系统奠定了基础。随着这些研究成果的进一步发展和应用,我们可以期待AI技术在各个领域发挥更大的作用,为人类社会带来更多价值。









