Midscene.js:AI驱动的浏览器自动化,让AI成为您的浏览器操作员

7

English | 简体中文

让AI成为您的浏览器操作员。

npm version huagging face model downloads License discord twitter

Midscene.js 让 AI 成为您的浏览器操作员 🤖。只需用自然语言描述您想做什么,它将帮助您操作网页、验证内容和提取数据。无论您想要快速体验还是深入开发,都可以轻松上手。

Showcases

以下录制的示例视频基于 UI-TARS 7B SFT 模型,并且视频根本没有加速~

指令 视频
发布推文 twitter-video-1080p.mp4
使用 JS 代码驱动任务编排,收集关于周杰伦演唱会的信息,并将其写入 Google Docs google-doc-1080p.mp4

📢 新的开源模型选择 - UI-TARS

从 v0.10.0 版本开始,我们支持一个名为 UI-TARS 的新开源模型。在选择模型中阅读更多相关信息。

💡 功能

  • 自然语言交互 👆:只需描述您的目标和步骤,Midscene 将为您规划和操作用户界面。
  • Chrome 扩展体验 🖥️:通过 Chrome 扩展程序立即开始体验,无需编码。
  • Puppeteer/Playwright 集成 🔧:支持 Puppeteer 和 Playwright 集成,允许您将 AI 功能与这些强大的自动化工具结合使用,以实现轻松自动化。
  • 支持私有部署 🤖:支持 UI-TARS 模型的私有部署,该模型在 UI 自动化场景中优于 GPT-4o 和 Claude 等闭源模型,同时更好地保护数据安全。
  • 支持通用模型 🌟:支持 GPT-4o 和 Claude 等通用大型模型,适应各种场景需求。
  • 用于调试的可视化报告 🎞️:通过我们的测试报告和 Playground,您可以轻松理解、重播和调试整个过程。
  • 支持缓存 🔄:第一次通过 AI 执行任务时,它将被缓存,后续执行相同任务将显着提高执行效率。
  • 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
  • 了解 UI,JSON 格式响应 🔍:您可以指定数据格式要求并接收 JSON 格式的响应。
  • 直观的断言 🤔:用自然语言表达您的断言,AI 将理解并处理它们。

✨ 模型选择

  • 您可以使用像 gpt-4o 这样的通用 LLM,它在大多数情况下都能很好地工作。此外,还支持 gemini-1.5-proqwen-vl-max-latest
  • 您还可以使用 UI-TARS 模型,这是一个专门用于 UI 自动化的开源模型。您可以将其部署在自己的服务器上,这将极大地提高性能和数据隐私。
  • 阅读更多关于选择模型

👀 比较于 ...

市面上有很多 UI 自动化工具,每一种似乎都功能强大。Midscene.js 有什么特别之处?

  • 调试体验:您很快会发现调试和维护自动化脚本才是真正的挑战点。无论演示多么神奇,您仍然需要调试该过程以使其随着时间的推移保持稳定。Midscene.js 提供了一个可视化报告文件、一个内置的 playground 和一个 Chrome 扩展来调试整个过程。这才是大多数开发人员真正需要的。我们正在继续努力改进调试体验。

  • 开源、免费、随心部署:Midscene.js 是一个开源项目。它与任何云服务和模型提供商分离,您可以选择公共或私有部署。总有一个适合您业务的计划。

  • 与 Javascript 集成:您可以始终押注 Javascript 😎

📄 资源

🤝 社区

引用

如果您在您的研究或项目中使用 Midscene.js,请引用:

@software{Midscene.js, author = {Zhou, Xiao and Yu, Tao}, title = {Midscene.js: Let AI be your browser operator.}, year = {2025}, publisher = {GitHub}, url = {https://github.com/web-infra-dev/midscene} }

📝 许可证

Midscene.js 是 MIT 许可的


如果这个项目对您有所帮助或启发了您,请给我们一个 ⭐️