AI上新:Glass如何通过“偷窥”屏幕,成为你的第二个大脑?

1

在数字时代,我们常常面临信息过载的困境,如何在海量数据中迅速找到所需内容,成为了一个挑战。张勇毅在[极客公园]的「AI 上新」栏目中,介绍了一款名为「Glass」的AI应用,这款应用旨在成为用户的“数字大脑拓展”,通过“被动观察”的方式,记录用户的数字化行为,从而实现人机交互的全新模式。

AI助手的新方向

传统的AI助手需要用户主动提问,而Glass则颠覆了这一模式。它无需用户频繁唤醒,而是默默地在后台记录用户的一切数字化行为,将其内化为自己的记忆。这种工作模式使得AI能够更好地理解用户的上下文,从而提供更精准的帮助。Glass通过获取用户的屏幕录制、麦克风访问和辅助功能权限,实现对用户行为的全面观察。

Glass的实际应用

Glass的应用场景广泛,例如在会议纪要方面,它能够实时生成会议纪要重点,并转录音频。与传统的会议纪要工具不同,Glass不受限于特定应用,可以全局记录并提取屏幕中的内容,根据记录生成摘要和问题总结。此外,Glass还可以在观看视频时提供摘要和进一步的问题,帮助用户更好地理解视频内容。

Glass 监听屏幕内容改变并实时记录

在代码重构方面,Glass也展现出了强大的能力。当用户使用Gemini修改完一串代码后,只需通过快捷键唤出Glass,询问修改部分代码的核心逻辑,Glass就能够迅速分析并总结函数的用途和修改点。这种能力极大地提高了开发效率,减少了不确定性。

Glass如何解决传统AI助手的痛点?

传统的AI助手常常面临上下文缺失和跨应用操作割裂的问题,而Glass通过全局读取屏幕信息并记录,有效地解决了这些痛点。作为一个开源项目,Glass在全时监控屏幕的情况下,并没有对电脑的内存产生过大的压力。然而,对于内存低于16GB的Mac设备,长时间运行Glass可能会导致卡顿现象。

Glass的技术原理

Glass放弃了取巧的路径,依赖云端服务器对用户行为进行分析,并在本地进行大量的结构化信息整理任务。这意味着所有的屏幕录制、语音识别都直接压在了处理器本身上,从而带来了更高的硬件负载。

Glass 可以无视应用边界自动转录屏幕内容

记忆延伸的理念

Glass的理念可以追溯到1945年范尼瓦·布什的《诚如所思》一文。布什在文章中提出了“记忆扩展器”的概念,旨在通过技术手段将个人的知识和记忆外部化,使其成为一个可供随时访问的“外接大脑”。Glass正是Memex理念在AI时代的具象实现,它通过记录用户的动态行为,并利用大型语言模型进行关联索引,最终实现一个活的、个人的记忆系统。

《诚如所思》(As We May Think)

Glass的更深远目标是为每个人建立一个活的数字克隆,使其成为用户的代理,可以理解用户、模仿用户,甚至代替用户执行任务。然而,目前的Glass体验距离这个目标还很遥远,它需要用户手动输入OpenAI或Gemini的API Keys,并安装Python与Node环境库。

Pickle团队及其争议

Glass背后的开发团队Pickle是一家致力于构建“数字思维扩展(Digital Mind Extension)”的公司。他们刚刚获得了来自Y Combinator的投资。Pickle脱胎于开源项目Cheating Daddy,而Cheating Daddy又是Cluely的开源版本。目前,Cheating Daddy的创始人指责Pickle直接复用其项目内容,引发了一些争议。

尽管存在争议,Glass仍然是一个值得关注的轻量级解决方案。此前,Rewind.ai项目因为对设备内存占用过高,以及结构化内容整理效果不佳而退出了AI工具的主流舞台。Glass的脱颖而出,表明用户对于能够让自己工作更顺畅、思考更专注的工具的需求。

Glass 生成视频摘要

主动感知AI的未来

Glass这类产品所代表的“主动感知AI”,曾经在科幻作品中反复出现,代表着高效与智能。随着技术的不断发展,主动感知AI距离真正落地到我们的日常生活中或许已经不远。一个轻量级工具的脱颖而出,也说明了用户核心需求的提炼的重要性。人们想要的,或许仅仅是一个能让自己工作更顺畅、思考更专注的普通的好工具。

Glass 的屏幕内容摘要功能支持中文,但支持的不多

Glass 可以针对记录的屏幕内容提问