AI助手:从幕后走向前台,成为你的“第二大脑”
在信息爆炸的时代,我们常常感到知识的匮乏,明明记得某个数据或论述,却难以在浩如烟海的信息中找到它。我们不断地在应用程序之间切换,复制粘贴,试图将上下文信息传递给AI,以期获得一些帮助。
最近,我体验了一款名为“Glass”的应用,它致力于成为用户的“数字大脑拓展”。与传统的AI聊天框不同,Glass将“被动观察”融入到macOS系统中,让我体验到AI作为心智延伸的人机交互模式。
Glass:面向未来的AI助手(开发者版)
Glass没有传统的用户界面,安装过程更像是一个开发者环境配置流程,需要熟悉Python和Node.js。安装完成后,它只是一个静默地躺在菜单栏的图标。
首次启动Glass,会看到几个直接的权限请求:屏幕录制、麦克风访问和辅助功能。每一个权限都直指核心:一个需要完整观察和倾听的AI。
安装完成后,你甚至可以选择隐藏Glass,即使将屏幕分享给他人,他们也无法看到它的存在。这正是Glass的核心理念:AI不应是一个需要频繁唤起的工具,而应是一个与你伴生的记忆体。
传统的AI助手工作模式是“你问,我答”,过程割裂且非连续。Glass颠覆了这一点,它的工作模式是“我观察,你随时问”。它在后台默默地记录你的数字化行为,并将其内化为自己的记忆。
它不再需要你费力地去解释上下文,因为它本身就活在你的上下文里。Glass更像是一个“低调实用”的AI助手。
当记忆不再是负担
Glass的主要功能包括我们已经熟悉的部分,也有不同于现有AI工具的使用体验。
首先,它并不是一个现有AI大模型工具的便捷访问入口。虽然可以直接提问,但问题的内容总是与屏幕中显示的内容相关。你可以通过快捷键,向它提问各种关于当前屏幕的内容。
当你点击悬浮栏中的Listen按钮,Glass会切换为监听模式,持续记录电脑屏幕过去出现过的各种画面信息与音频,并基于此生成一份总结报告。
在会议纪要场景中,Glass不仅能实时生成一份会议纪要重点,还能实时转录音频,但目前只支持英文,对中文语音的支持欠佳。Glass与其它会议纪要类AI工具最大的不同在于,它不受某个App的限制,可以全局记录并提取过去屏幕中的内容,并根据记录下来的内容实时生成摘要和问题总结。
除了会议记录功能,Glass还能应用在观看视频的场景中。开启Glass后,打开一个关于F1车手刘易斯-汉密尔顿的采访视频。不到三分钟,Glass就通过读取到的内容,生成了一份内容摘要,还会主动提供数个进一步问题,供你进一步了解视频内容。当然,你也可以自己提问。
摘要内容会随着屏幕内容数据的增加而不断更新。目前,Glass分析本身支持中文内容,但自动生成的内容汇总目前还只能以英文的方式展示,这与Apple Intelligence中ChatGPT的体验类似,都是模型本身支持中文内容、应用层没有做适配产生的问题。
在直接针对屏幕内容的提问中,由于可以直接使用中文提问,回答也会采用中文回复,这大大提高了对中文用户的友好程度。
全局读取屏幕信息并记录,是一个潜力几乎无上限的功能。我在VSCode里重构一个复杂的项目时,使用Gemini修改完一串代码后,脑中突然闪过一丝不确定。我没有急于修改撰写的那段代码,而是通过快捷键唤出Glass,问道:“帮我分析一下修改的那部分代码的核心逻辑。”
几秒后,一个对话框以通知的方式弹出,用清晰的列表总结了函数的用途和我的修改点。
我没有复制任何代码,没有跳转任何页面。我只是提出了一个基于“屏幕内容”和“需求”的问题,Glass就从屏幕中为我提取了答案。
另一个例子是Glass对非结构化信息(如会议语音)的处理能力。在一场持续一个多小时的线上脑暴会中,我全程投入讨论。会议结束后,Glass已经自动生成了一份详尽的会议纪要,不仅区分了不同发言人,甚至提炼出了关键的结论和待办事项列表。
它就像一个永不疲倦的书记员,将稍纵即逝的多模态内容流,沉淀为结构化的信息资产。
Glass解决了AI助手最大的痛点:上下文的缺失和跨应用操作的割裂感。同时,作为一个开源项目,Glass即使在全时监控屏幕下,也没有对电脑的内存产生特别巨大的压力,这让我愿意让它全天运行在我的电脑上,在我需要它的时候将它唤醒。
尽管如此,我仍然不建议电脑内存在16GB以下的Mac设备(当前Glass只有macOS版本,Windows版本在开发中)长时间运行Glass,因为它仍然可能给电脑造成明显的卡顿现象。
简单的产品应用逻辑,也说明Glass放弃了所有取巧的路径,它依赖云端服务器对你的行为进行分析(至少在开源版本中),同时选择在本地进行大量的结构化信息整理任务。这意味着所有的屏幕录制、语音识别,几乎都直接压在了处理器本身上,自然也就带来了更高的硬件负载。
记忆延伸的源流与未来
Glass的推出,虽然只是一个名为Pickle的小团队的开源项目,但其背后的理念,却可以追溯到上个世纪。
1945年,美国科学家范尼瓦·布什(Vannevar Bush)发表了《诚如所思》(As We May Think),首次提出了“记忆扩展器”(Memex)的概念。这个构想远早于个人电脑和互联网的诞生,却以惊人的前瞻性预示了未来信息技术的发展方向,并对后来的超文本(Hypertext)和个人计算领域产生了深远的影响。
“记忆拓展器”的核心逻辑,是通过技术手段,将个人的知识和记忆外部化,使其成为一个可供随时访问的“外接大脑”。
Glass所做的事情,正是Memex理念在AI时代的具象实现。它不再局限于存储文档和书籍,而是将用户动态的、实时的“行为”本身作为记录对象,通过大型语言模型的“关联索引”,最终实现一个远超任何传统知识库的、活的、个人的记忆系统。
Glass这个项目更深远的目标——“为每个人建立一个活的数字克隆”,则是这一理念的极致延伸。它不仅要成为你的记忆,更渴望成为你的“代理”,一个可以理解你、模仿你、甚至代替你执行任务的数字孪生。
但现实是,目前Glass的体验显然距离这个目标还很遥远:Glass需要你手动输入OpenAI或Gemini的API Keys,现阶段Glass也提供了登录账号、免费试用开发团队提供的API Key额度的解决方案。同时正常使用也需要前置安装Python与Node环境库,虽然门槛实际上并不高,但也并没有达到“开箱即用”的地步。
即便如此,Glass在开源之后还是迅速在GitHub上吸引了不少关注,短短四天已经破超过3K Star,迅速在AI工具圈走红。
在Glass背后,开发团队Pickle是一家致力于构建“数字思维扩展(Digital Mind Extension)”的公司。他们刚刚在上个月从Y Combinator吸引到了60亿韩元(约3100万人民币)的投资。
Pickle脱胎于另一个开源项目Cheating Daddy,而Cheating Daddy又是另一个“臭名昭著”的项目Cluely的开源版本——后者在今年曾因为闭源、付费以及最重要的面试作弊这一卖点颇受关注,同时也引来的诸多争议。
由于Pickle项目中存在大量Cheating Daddy项目的内容直接复用,目前Cheating Daddy创始人就这一点在X上对Pickle发起讨伐,指责“开源项目并不意味着可以拿来照抄”,但这件事尚未得到Pickle团队的正面回应。
但目前作为一个轻量级的解决方案,Glass仍然不失为一种值得观察的思路;此前主打“全天候记录用户信息”的Rewind.ai项目,就因为对设备的内存占用过高,同时对结构化内容整理效果不尽人意,因而迅速退出AI工具的主流舞台。
Glass这类产品所代表的“主动感知AI”,这个曾在科幻作品中反复出现,代表着高效与智能的词汇,距离真正到我们的日常生活中落地,或许已经不远。
一个轻量级工具的脱颖而出,更是说明了这个过程中,用户核心需求的提炼——没错,一个完美的记忆体的确很强大,AI的辅助也的确很努力,但人们想得到的,或许仅仅是一个能让自己工作更顺畅、思考更专注的普通的好工具。