Glass：AI“偷窥”屏幕，打造你的第二个大脑

在数字时代，我们常常面临信息过载的挑战，如何在海量数据中快速定位所需信息，成为了提升效率的关键。AI技术的发展，为我们解决这一难题带来了新的希望。本文将深入探讨一款名为“Glass”的AI应用，它通过“被动观察”的方式，将AI融入到我们的日常工作中，成为我们心智的延伸。

Glass并非传统的AI聊天机器人，而是一款致力于成为用户“数字大脑拓展”的应用。它通过静默地运行在macOS系统中，观察用户的屏幕活动，并将其转化为可供随时访问的“记忆体”。这种“我观察，你随时问”的工作模式，颠覆了传统AI助手“你问，我答”的割裂式体验。

Glass应用安装界面

Glass的安装与权限

Glass的安装过程更像是一个开发者环境的配置流程，需要用户熟悉Python和Node.js。安装完成后，它会请求屏幕录制、麦克风访问和辅助功能权限。这些权限都指向一个核心：一个需要完整观察和倾听用户的AI。

Glass的核心理念

Glass的核心理念是，AI不应是一个需要被频繁唤起的“工具”，而应是一个与用户伴生的“记忆体”。它在后台默默地记录用户的一切数字化行为，并将其内化为自己的记忆。它不再需要用户费力地去“解释上下文”，因为它本身就活在用户的上下文里。

Glass的实战表现

Glass主要有我们已经熟悉的部分，也有不同于现有任何AI工具使用体验的部分。Glass可以直接提问，但问题的内容总是与屏幕中显示的内容相关。用户可以直接通过快捷键，来向它提问各种关于当前屏幕的内容。

当你点击悬浮栏中的Listen按钮，Glass就会切换为监听模式，从静态读取你当前桌面上的内容，变为持续记录你电脑屏幕过去出现过的各种画面信息与音频，并基于此生成一份总结报告。

Glass监听屏幕内容改变并实时记录

在会议纪要场景中，Glass不仅能实时生成一份会议纪要重点，并且还能实时转录音频，当然目前的体验中还只支持英文，对于中文语音的支持欠佳。Glass比起其他会议纪要类AI工具最大的不同，是它不受某个App的限制，可以全局记录并提取过去屏幕中的内容，并且根据记录下来的内容实时生成摘要以及问题总结。

除了会议记录功能，Glass的应用场景还能体现在看视频上：在Glass开启的状态下，打开一个主题是关于F1车手刘易斯-汉密尔顿的采访视频。在不到三分钟之后，Glass就通过目前读取到的内容，帮我生成了一份当前内容摘要。

Glass 生成视频摘要

这份摘要内容本身会随着屏幕内容数据的不断增加，进一步更新更多相关内容，目前Glass分析本身支持中文内容，但自动生成的内容汇总目前还只能以英文的方式展示——这种情况我们在如今的Apple Intelligence中ChatGPT的体验中也曾见过，都是模型本身支持中文内容、应用层没有做适配产生的问题。

Glass 的屏幕内容摘要功能支持中文，但支持的不多

在直接针对屏幕内容的提问中，由于可以直接使用中文提问，因此回答也会采用中文回复，这很大程度上提高了这一功能对中文用户的友好程度。

Glass 可以针对记录的屏幕内容提问

全局读取屏幕信息并记录，是一个潜力几乎无上限的功能，遇到的第一个震撼瞬间，是在VSCode里重构一个复杂的项目。

当我使用Gemini修改完一串代码，然后脑中突然闪过一丝不确定。此时，我没有急于修改撰写的那段代码，而是直接通过快捷键唤出Glass，问道：「帮我分析一下修改的那部分代码的核心逻辑。」

几秒种后，一个对话框以通知的方式弹出，用清晰的列表总结了函数的用途和我的修改点。我没有复制任何代码，没有跳转任何页面。我只是提出了一个基于“屏幕内容”和“需求”的问题，Glass就从屏幕中为我提取了答案。

另一个，则是Glass对非结构化信息（如会议语音）的惊人处理能力。在一场持续一个多小时的线上脑暴会中，我全程投入讨论。会议结束后，Glass已经自动生成了一份详尽的会议纪要，不仅区分了不同发言人，甚至提炼出了关键的结论和待办事项列表。

Glass 可以无视应用边界自动转录屏幕内容

它就像一个永不疲倦的书记员，将稍纵即逝的多模态内容流，沉淀为结构化的信息资产。

可以说，Glass的首秀，就将目前AI助手最大的痛点——上下文的缺失和跨应用操作的割裂感解决了。同时作为一个开源项目，Glass即使是全时监控屏幕下，也没有对电脑的内存产生特别巨大的压力——这一点足以让我愿意让它全天运行在我的电脑上，在我需要它的时候将它唤醒。

但简单的产品应用逻辑，也说明Glass放弃了所有取巧的路径，它依赖云端服务器对你的行为进行分析（至少在开源版本中），同时选择在本地进行大量的结构化信息整理任务。这意味着所有的屏幕录制、语音识别，几乎都直接压在了处理器本身上，自然也就带来了更高的硬件负载。

记忆延伸的源流与未来

Glass的推出，虽然只是一个名为Pickle的小团队的开源项目，但其背后的理念，却可以追溯到上个世纪。

1945年，在美国科学家范尼瓦·布什（Vannevar Bush）发表于《大西洋月刊》的著名文章《诚如所思》（As We May Think）中，一个名为“记忆扩展器”（Memex）的革命性概念被首次提出。这个构想远早于个人电脑和互联网的诞生，却以惊人的前瞻性预示了未来信息技术的发展方向，并对后来的超文本（Hypertext）和个人计算领域产生了深远的影响。

《诚如所思》（As We May Think）

“记忆拓展器”的核心逻辑，是通过技术手段，将个人的知识和记忆外部化，使其成为一个可供随时访问的“外接大脑”。

Glass所做的事情，正是Memex理念在AI时代的具象实现。它不再局限于存储文档和书籍，而是将用户动态的、实时的“行为”本身作为记录对象，通过大型语言模型的“关联索引”，最终实现一个远超任何传统知识库的、活的、个人的记忆系统。

Glass这个项目更深远的目标——“为每个人建立一个活的数字克隆”，则更是这一理念的极致延伸。它不仅要成为你的记忆，更渴望成为你的“代理”，一个可以理解你、模仿你、甚至代替你执行任务的数字孪生。

但回到现实，目前Glass的体验显然距离这个目标距离还很遥远：Glass需要你手动输入OpenAI或Gemini的API Keys，现阶段Glass也提供了登录账号、免费试用开发团队提供的API Key额度的解决方案。同时正常使用也需要前置安装Python与Node环境库，虽然门槛实际上并不高，但也并没有达到“开箱即用”的地步。

即便如此，Glass在开源之后还是迅速在GitHub上吸引了不少关注，短短四天已经破超过3K Star，迅速在AI工具圈走红。

在Glass背后，开发团队Pickle是一家致力于构建“数字思维扩展（Digital Mind Extension）”的公司。他们刚刚在上个月从Y Combinator吸引到了60亿韩元（约3100万人民币）的投资。

Pickle 官网

Pickle脱胎于另一个开源项目Cheating Daddy，而Cheating Daddy又是另一个“臭名昭著”的项目Cluely的开源版本——后者在今年曾因为闭源、付费以及最重要的面试作弊这一卖点颇受关注，同时也引来的诸多争议。

由于Pickle项目中存在大量Cheating Daddy项目的内容直接复用，目前Cheating Daddy创始人就这一点在X上对Pickle发起讨伐，指责“开源项目并不意味着可以拿来照抄”，但这件事尚未得到Pickle团队的正面回应。

但目前作为一个轻量级的解决方案，Glass仍然不失为一种值得观察的思路；此前主打“全天候记录用户信息”的Rewind.ai项目，就因为对设备的内存占用过高，同时对结构化内容整理效果不尽人意，因而迅速退出AI工具的主流舞台。

Glass这类产品所代表的“主动感知AI”，这个曾在科幻作品中反复出现，代表着高效与智能的词汇，距离真正到我们的日常生活中落地，或许已经不远。

一个轻量级工具的脱颖而出，更是说明了这个过程中，用户核心需求的提炼——没错，一个完美的记忆体的确很强大，AI的辅助也的确很努力，但人们想得到的，或许仅仅是一个能让自己工作更顺畅、思考更专注的普通的好工具。