English | 简体中文
让AI成为您的浏览器操作员。
Midscene.js 让 AI 成为您的浏览器操作员 🤖。只需用自然语言描述您想做什么,它将帮助您操作网页、验证内容和提取数据。无论您想要快速体验还是深入开发,都可以轻松上手。
Showcases
以下录制的示例视频基于 UI-TARS 7B SFT 模型,并且视频根本没有加速~
指令 | 视频 |
---|---|
发布推文 | twitter-video-1080p.mp4 |
使用 JS 代码驱动任务编排,收集关于周杰伦演唱会的信息,并将其写入 Google Docs | google-doc-1080p.mp4 |
📢 新的开源模型选择 - UI-TARS
从 v0.10.0 版本开始,我们支持一个名为 UI-TARS
的新开源模型。在选择模型中阅读更多相关信息。
💡 功能
- 自然语言交互 👆:只需描述您的目标和步骤,Midscene 将为您规划和操作用户界面。
- Chrome 扩展体验 🖥️:通过 Chrome 扩展程序立即开始体验,无需编码。
- Puppeteer/Playwright 集成 🔧:支持 Puppeteer 和 Playwright 集成,允许您将 AI 功能与这些强大的自动化工具结合使用,以实现轻松自动化。
- 支持私有部署 🤖:支持
UI-TARS
模型的私有部署,该模型在 UI 自动化场景中优于 GPT-4o 和 Claude 等闭源模型,同时更好地保护数据安全。 - 支持通用模型 🌟:支持 GPT-4o 和 Claude 等通用大型模型,适应各种场景需求。
- 用于调试的可视化报告 🎞️:通过我们的测试报告和 Playground,您可以轻松理解、重播和调试整个过程。
- 支持缓存 🔄:第一次通过 AI 执行任务时,它将被缓存,后续执行相同任务将显着提高执行效率。
- 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
- 了解 UI,JSON 格式响应 🔍:您可以指定数据格式要求并接收 JSON 格式的响应。
- 直观的断言 🤔:用自然语言表达您的断言,AI 将理解并处理它们。
✨ 模型选择
- 您可以使用像
gpt-4o
这样的通用 LLM,它在大多数情况下都能很好地工作。此外,还支持gemini-1.5-pro
、qwen-vl-max-latest
。 - 您还可以使用
UI-TARS
模型,这是一个专门用于 UI 自动化的开源模型。您可以将其部署在自己的服务器上,这将极大地提高性能和数据隐私。 - 阅读更多关于选择模型
👀 比较于 ...
市面上有很多 UI 自动化工具,每一种似乎都功能强大。Midscene.js 有什么特别之处?
调试体验:您很快会发现调试和维护自动化脚本才是真正的挑战点。无论演示多么神奇,您仍然需要调试该过程以使其随着时间的推移保持稳定。Midscene.js 提供了一个可视化报告文件、一个内置的 playground 和一个 Chrome 扩展来调试整个过程。这才是大多数开发人员真正需要的。我们正在继续努力改进调试体验。
开源、免费、随心部署:Midscene.js 是一个开源项目。它与任何云服务和模型提供商分离,您可以选择公共或私有部署。总有一个适合您业务的计划。
与 Javascript 集成:您可以始终押注 Javascript 😎
📄 资源
- 主页:https://midscenejs.com
- 通过 Chrome 扩展程序快速体验,这是您应该开始的地方
- 集成
- 使用 YAML 中的脚本自动化,如果您喜欢编写 YAML 文件而不是代码,请使用此方法
- 通过 Chrome 扩展的桥接模式,使用此方法通过脚本控制桌面 Chrome
- 与 Puppeteer 集成
- 与 Playwright 集成
- API 参考
- 选择模型
- 配置模型和提供程序
🤝 社区
引用
如果您在您的研究或项目中使用 Midscene.js,请引用:
@software{Midscene.js, author = {Zhou, Xiao and Yu, Tao}, title = {Midscene.js: Let AI be your browser operator.}, year = {2025}, publisher = {GitHub}, url = {https://github.com/web-infra-dev/midscene} }
📝 许可证
Midscene.js 是 MIT 许可的。
如果这个项目对您有所帮助或启发了您,请给我们一个 ⭐️