在人工智能技术飞速发展的今天,如何确保AI系统的可靠性、提高其运行效率并增强多模态处理能力,已成为行业面临的核心挑战。MIT-IBM Watson AI Lab夏季项目的首届五名博士研究生,通过创新研究正在推动AI工具向更加灵活、高效和真实的方向发展。他们的研究涵盖了从学习何时信任模型预测到更有效地在知识库上进行推理的多个领域,共同构建了一条从实践研究到跨领域可靠模型的清晰发展路径。
可信AI:学习信任与判断
探索模型内部结构
MIT数学研究生Andrey Bryutkin的研究优先考虑模型的可靠性。他探索问题内部结构,如系统方程和守恒定律,以了解如何利用这些结构来产生更可靠和稳健的解决方案。通过与实验室合作,Bryutkin开发了一种方法来窥探大型学习模型(LLM)行为的本质。他与IBM Research的Veronika Thost和MIT电气工程与计算机科学系(EECS)副教授Marzyeh Ghassemi共同探讨了LLM的"不确定性中的不确定性"。
传统上,小型前馈神经网络(称为探测器)与LLM一起训练,用于向开发者标记不可靠的答案。然而,这些分类器也可能产生假阴性,并且只提供点估计,无法提供关于LLM何时失效的详细信息。通过研究安全/不安全提示和问答任务,MIT-IBM团队使用提示-标签对以及来自LLM的隐藏状态(如激活向量和最后标记)来测量梯度分数、提示敏感度和分布外数据,以确定探测器的可靠性并学习难以预测的数据区域。他们的方法还有助于识别潜在的标记噪声,这对AI系统的可信度至关重要,因为AI系统的可信度完全取决于构建其数据的质量和准确性。
知识图谱与LLM的高效整合
确保LLM查询可信响应的另一种方法是使用外部可信知识库来消除幻觉。对于结构化数据,如社交媒体连接、金融交易或公司数据库,知识图谱(KG)是自然的选择。然而,LLM和KG之间的通信通常使用计算效率低且昂贵的固定多代理管道。
为解决这一问题,物理学研究生Jinyeop Song与IBM研究员Yada Zhu和EECS副教授Julian Shun共同创建了一个单代理、多轮、强化学习框架,简化了这一过程。该团队设计了一个托管Freebase和Wikidata KGs的API服务器,以及一个向服务器发出检索操作以获取相关信息的LLM代理。然后,通过持续的前后交流,代理将从KGs收集的数据附加到上下文中并响应查询。关键的是,该系统使用强化学习来训练自己,以提供在准确性和完整性之间取得平衡的答案。该框架将API服务器与单个强化学习代理配对,以协调数据基础推理,提高准确性、透明度、效率和可移植性。
智能计算:优化资源分配
重新设计推理架构
模型响应的及时性和完整性与其准确性同等重要。这在处理长输入文本和元素(如故事主题)随时间变化的情况下尤其如此。EECS研究生Songlin Yang正在重新设计模型在每个推理步骤中能够处理的内容,专注于Transformer的局限性,如LLM中的局限性。
与IBM研究员Rameswar Panda和EECS教授Yoon Kim合作,Yang开发了超越Transformer的下一代语言模型架构。Transformer面临两个关键限制:由于softmax注意力机制,长序列建模的计算复杂度高;以及RoPE(旋转位置编码)弱归纳偏差导致的表达能力有限。这意味着当输入长度翻倍时,计算成本会翻两倍。
RoPE使Transformer能够理解标记的序列顺序(即单词);然而,它无法很好地捕捉随时间变化的内部状态变化,如变量值,并且仅限于训练期间看到的序列长度。
为解决这一问题,MIT-IBM团队探索了理论上合理但硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,降低了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。
通过增加表达能力,他们用基于Householder变换的动态反射位置编码替换了RoPE。这种方法实现了更丰富的位置交互,能够更深入地理解顺序信息,同时保持快速高效的计算。MIT-IBM团队的进步减少了Transformer将问题分解为多个步骤的需要,而是使它们能够用更少的推理标记处理更复杂的子问题。
视觉AI:新视野与新方法
图表理解与生成
视觉数据包含人类大脑可以快速解析、内化并模仿的丰富信息。EECS研究生Jovana Kondic在Aude Oliva(MIT-IBM Watson AI Lab主任和计算机科学与人工智能实验室高级研究员)和IBM研究员Rogerio Feris、Dan Gutfreund、Leonid Karlinsky(现任职于Xero)的指导下,探索了视觉文档理解,特别是图表。
图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型仍在这些方面挣扎。为了促进此类任务的表现,Kondic的团队创建了一个大型开源合成图表数据集,可用于训练和基准测试。
通过他们的原型ChartGen,研究人员创建了一个管道,将种子图表图像通过视觉语言模型(VLM),VLM被提示读取图表并生成可能最初用于创建该图表的Python脚本。该框架的LLM组件然后从许多图表中迭代地增强代码,最终产生超过200,000个独特图表及其代码对,涵盖近30种图表类型,以及支持数据和注释,如图表描述和问答对。团队正在进一步扩展其数据集,帮助实现关键的多模态理解,用于金融和科学报告、博客等企业应用的数据可视化。
视觉纹理生成与程序合成
EECS研究生Leonardo Hernandez Cano则专注于数字设计,特别是CAD应用的视觉纹理生成,目标是发现在VLMs中实现这些功能的有效方法。他与EECS教授Armando Solar-Lezama和IBM研究员Nathan Fulton领导的团队合作,创建了一个能够自行学习改进代码的程序合成系统。
该系统从用户以图像形式提供的纹理描述开始。然后生成一个初始Python程序,该程序产生视觉纹理,并迭代改进代码,目标是找到产生与目标描述匹配的纹理的程序,学习从系统自身产生的数据中搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化,模仿真实材料。
研究的深远影响
综合来看,这些项目和背后的研究人员正在朝着更加稳健和实用的人工智能迈出协同一致的步伐。通过解决可靠性、效率和多模态推理的核心挑战,他们的工作为AI系统铺平了道路,这些系统不仅在功能上更加强大,而且在真实世界的企业和科学应用中更加可靠和具有成本效益。
这些研究项目代表了AI领域的前沿进展,不仅解决了当前技术的局限性,还为未来的发展方向提供了清晰的路线图。随着这些技术的成熟和广泛应用,我们可以期待看到AI在更多领域的突破性应用,从金融分析到科学发现,从医疗诊断到创意设计。
未来展望
MIT-IBM Watson AI Lab的这些研究成果展示了学术界与产业界合作的力量。通过将理论研究与实际应用相结合,这些年轻的研究人员正在推动AI技术的边界,解决现实世界中的复杂问题。
随着这些技术的进一步发展,我们可以预见几个关键趋势:首先,AI系统将变得更加可靠和透明,用户可以更好地理解和信任AI的决策过程;其次,计算效率的提高将使AI能够在资源受限的环境中运行,扩大其应用范围;最后,多模态AI能力的增强将使系统能够更自然地理解和生成跨模态的内容,为人类与AI的交互开辟新的可能性。
这些进步不仅将改变我们与技术互动的方式,还将为解决全球性挑战提供新的工具和方法。从气候变化到医疗保健,从教育到可持续发展,AI技术将在塑造更美好未来的过程中发挥关键作用。






