在人工智能领域快速发展的今天,如何确保AI工具的可靠性、效率和真实性成为研究者们面临的核心挑战。MIT-IBM Watson AI实验室暑期项目的五位博士生通过开创性研究,正在解决这些关键问题,推动AI技术向更加实用和可靠的方向发展。
可信度与信任机制
探索模型的不确定性
MIT数学研究生Andrey Bryutkin的研究重点在于提升模型的可信度。他专注于探索问题内部的内在结构,如控制系统的方程和守恒定律,以了解如何利用这些结构来产生更可靠、更稳健的解决方案。通过与实验室合作,Bryutkin开发了一种方法来深入了解大型学习模型(LLMs)的行为本质。
与IBM研究院的Veronika Thost和MIT电气工程与计算机科学系(MIT EECS)副教授Marzyeh Ghassemi合作,Bryutkin探索了LLMs的"不确定性中的不确定性"。传统上,小型前馈神经网络(称为探针)与LLMs一起训练,用于向开发者标记不可靠的答案;然而,这些分类器也可能产生假阴性,并且只提供点估计,无法提供关于LLMs何时失效的详细信息。
通过研究安全/不安全提示和问答任务,MIT-IBM团队使用提示-标签对以及LLMs的隐藏状态(如激活向量和最后一个标记),来测量梯度分数、对提示的敏感性以及分布外数据,以确定探针的可靠性并学习难以预测的数据区域。他们的方法还有助于识别潜在的标签噪声,这对于确保AI系统的可信度至关重要,因为AI系统的可信度完全取决于构建其基础的数据质量和准确性。
知识图谱与单代理框架
确保LLMs查询可信响应的另一种方法是使用外部可信知识库来消除幻觉。对于结构化数据,如社交媒体连接、金融交易或公司数据库,知识图谱(KG)是自然的选择;然而,LLMs和KGs之间的通信通常使用固定的多代理管道,计算效率低下且成本高昂。
为解决这一问题,物理学研究生Jinyeop Song与IBM研究院的研究员Yada Zhu和MIT EECS副教授Julian Shun共同创建了一个单代理、多轮、强化学习框架,简化了这一过程。该团队设计了一个托管Freebase和Wikidata KGs的API服务器,这些知识库包含基于网络的一般知识数据,以及一个向服务器发出针对性检索操作以获取相关信息的LLM代理。然后,通过持续的双向交流,代理将从KGs收集的数据附加到上下文中并响应查询。关键的是,该系统使用强化学习进行自我训练,以提供在准确性和完整性之间取得平衡的答案。该框架将API服务器与单个强化学习代理配对,以协调基于数据的推理,提高准确性、透明度、效率和可转移性。
计算效率的优化
变压器架构的革新
模型响应的及时性和完整性与其准确性同样重要。这一点在处理长输入文本以及那些元素(如故事主题)随时间变化的文本时尤为关键。因此,MIT EECS研究生Songlin Yang正在重新设计模型在每个推理步骤中能够处理的内容。
专注于变压器(如LLMs中使用的)的局限性,IBM研究院的Rameswar Panda和MIT EECS教授Yoon Kim与Yang合作,开发了超越变压器的下一代语言模型架构。
变压器面临两个关键局限性:由于softmax注意力机制,长序列建模中的计算复杂度高;以及由于RoPE(旋转位置编码)的弱归纳偏置导致的表达能力有限。这意味着当输入长度加倍时,计算成本会增加到四倍。RoPE使变压器能够理解标记(即单词)的序列顺序;然而,它不能很好地捕捉随时间变化的内部状态变化,如变量值,并且仅限于训练期间看到的序列长度。
为解决这些问题,MIT-IBM团队探索了理论上合理且硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,减少了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。
通过增强表达能力,他们用基于Householder变换的动态反射位置编码替换了RoPE。这种方法能够实现更丰富的位置交互,从而更深入地理解顺序信息,同时保持快速高效的计算。MIT-IBM团队的进展减少了变压器将问题分解为许多步骤的需要,而是使它们能够使用更少的推理标记处理更复杂的子问题。
多模态与视觉创新
视觉文档理解的新突破
视觉数据包含人类大脑能够快速解析、内化并模仿的丰富信息。EECS研究生Jovana Kondic在Aude Oliva(IBM Watson AI实验室主任、MIT计算机科学与人工智能实验室高级研究科学家)和IBM研究院的Rogerio Feris、Dan Gutfreund以及Leonid Karlinsky(现就职于Xero)的指导下,探索了通过代码实现这一目标的方法。
Kondic专注于视觉文档理解,特别是图表。图表包含数据点、图例和轴标签等元素,这些需要光学字符识别和数值推理,而模型在这些任务上仍然表现不佳。为了促进此类任务的表现,Kondic的团队着手创建一个大型、开源的合成图表数据集,可用于训练和基准测试。
通过他们的原型ChartGen,研究人员创建了一个管道,将种子图表图像通过视觉语言模型(VLM),该模型被提示读取图表并生成可能最初用于创建该图表的Python脚本。该框架的LLM组件然后从许多图表中迭代地增强代码,最终产生超过200,000个独特的图表及其代码对,涵盖近30种图表类型,以及支持的数据和注释,如图表描述和关于图表的问答对。团队正在进一步扩展其数据集,帮助企业应用(如财务和科学报告、博客等)实现关键的多模态数据可视化理解。
数字设计与视觉纹理生成
与Kondic不同,EECS研究生Leonardo Hernandez Cano专注于数字设计,特别是CAD应用的视觉纹理生成,目标是发现在VLMs中实现这些功能的有效方法。他与Armando Solar-Lezama(MIT EECS教授、MIT Schwarzman计算学院杰出计算教授)领导的实验室团队和IBM研究院的Nathan Fulton合作,创建了一个能够自主学习改进代码的程序合成系统。
该系统从用户以图像形式提供的纹理描述开始。然后它生成一个初始Python程序,该程序产生视觉纹理,并通过迭代改进代码,目标是找到一个能够生成与目标描述匹配的纹理的程序,从系统自身产生的数据中学习搜索新程序。通过这些改进,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化,模仿真实材料。
研究成果的实际应用前景
这些研究项目共同构成了向更加稳健和实用的人工智能迈进的协同努力。通过解决可靠性、效率和多模态推理的核心挑战,这些工作为AI系统铺平了道路,使其不仅更强大,而且在真实的企业和科学应用中更加可靠和具有成本效益。
企业应用潜力
在企业环境中,这些技术可以显著提升AI系统的实用价值。例如,基于知识图谱的推理框架可以帮助企业更有效地利用其内部数据资产,提高决策质量。同时,改进的变压器架构可以处理更长的文档和更复杂的查询,使企业能够从大量非结构化数据中提取有价值的见解。
科学研究价值
在科学研究领域,这些技术同样具有深远影响。视觉文档理解系统可以帮助研究人员快速分析和理解复杂的科学图表和数据可视化,加速科学发现过程。而更高效的计算模型则使研究人员能够在有限资源下处理更大规模的数据集和更复杂的模拟。
未来发展方向
这些研究不仅解决了当前AI系统的局限性,还为未来发展指明了方向。随着这些技术的成熟和广泛应用,我们可以期待看到更加智能、可靠和高效的AI系统,它们能够在各种复杂场景中提供准确、及时和有用的信息。
结语
MIT-IBM Watson AI实验室暑期项目的研究生们通过其创新性工作,正在推动AI技术向更加实用和可靠的方向发展。从提升模型可信度到优化计算效率,从多模态数据理解到程序合成,这些研究项目共同构成了AI技术进步的重要力量。随着这些技术的进一步发展和应用,我们有理由相信,未来的AI系统将更加智能、可靠和高效,为人类社会带来更大的价值。









