在AI技术飞速发展的今天,工作流自动化工具正经历着前所未有的变革。Refly.AI推出的Vibe Workflow正在重新定义这一领域,通过将Agent与Workflow的创新结合,实现了前所未有的易用性和功能性。这款由朱啸虎投资、估值近千万美元的产品,旨在解决n8n、扣子等传统工作流工具的复杂性问题,让非技术用户也能轻松搭建工作流。
Agent与Workflow的完美融合
从AGI发展主线来看,一端是以Manus为代表的Agent形态,本质上这是一套基于自然语言驱动的Workflow;另一端则是以n8n、Dify或纯代码为代表的传统Workflow,更强调精确性。在实际使用中,这两种方式都存在明显问题。
以Manus为例,整体成本高、稳定性不足、执行时间难以预期,更关键的是,同一位用户多次提交相同指令时,产出的结果往往并不一致。而在n8n或Dify等工具中,一旦流程稍微复杂,就需要通过编写代码来维护if-else等控制逻辑,对非程序员用户非常不友好,也抬高了使用门槛。
Vibe Workflow的核心创新在于,它在保留Agent动态性的同时,获得了传统Workflow的可控性与稳定性。其特点主要体现在几个层面:
首先,搭建成本无限降低,一句话就可以搭Workflow。产品的核心在于将Agent进行白盒化,提供一套「Agent Editor」,并在此基础上对Workflow的底层结构进行了重构:每一个节点本身都是一个Agent,用户只需为Agent编写prompt、选择合适的tools,系统即可完成多步规划与问题求解;相比之下,传统Workflow中的单个节点往往只负责调用一个API或执行一段代码。
其次,每个Agent都配备一台沙箱,让它操作电脑去写代码、根据给定的tools做数据拉取等操作,再做可视化呈现,解决if-else逻辑。传统Workflow里复杂的code流程,现在全都可以省略,变成一个节点。内部测试显示,在相同任务下,一个Refly.AI节点可以替代大约20个n8n节点的功能。

成本与性能的平衡艺术
当每个节点都是一个Agent时,成本自然成为用户最关心的问题。Refly.AI在这方面展现了独特的策略。
从搭建成本来看,通过copilot配合,用n8n搭一个8到10个节点的流程,可能要花3到6个小时,加上中间的调试成本,估计至少也是大几十万token的消耗。但是在Refly.AI,一句话生成Workflow本身消耗的token是非常低的,可能也就几千甚至上万个token,现在Kimi K2这样的模型已经能够非常好地完成这个任务。
从执行成本来看,Refly.AI让每个任务都变得简单,每个任务被简化为简短具体的Prompt,可一次性执行完毕。该过程仅消耗1至2个积分,成本约0.1至1元。相比Manus单任务数美元的成本,这降低了至少5至7倍,而且其他人可以复用这个成果。后续调用时,token消耗可能仅为原本的50%甚至10%。
然而,这种创新也带来了准确性与稳定性的挑战。传统n8n的很多节点有确定的结果,但Vibe Workflow的四五个Agent节点,如果每个节点输出确定性达不到100%,折损就会比较大。
Refly.AI的策略是,放弃一部分的准确性和稳定性,去换取更大用户规模的使用。核心策略在于通过大幅降低使用成本与门槛,来平衡用户对准确率的诉求。本质上,这是试图用门槛降低10倍的优势,去换取稳定性降低1到2倍的代价。
精准定位:从专业用户到内容创作者
Refly.AI的产品定位经历了从模糊到清晰的演变过程。早期,他们更倾向于那些有n8n、Dify使用经验,但觉得搭建很复杂,或者在寻求简单替代方案的用户。这些用户可能曾经用过别人的Workflow,或者复刻某个大V的Workflow,但自己不会修改。
为此,Refly.AI在产品设计里有一个非常重要的动作,就是把n8n、Claude Skills或者其他Workflow平台做迁移,甚至是产品化的迁移功能。也就是说,用户可以一键把那边的东西导过来,放在Refly.AI平台上运行。这是他们的第一批用户。
第二个重点场景是自媒体内容创作。Refly.AI团队发现,现在模型每天都在更新,今天是Gemini,明天是Claude Opus。这些模型单点使用不会产生多大作用,但很多自媒体用户想把它们串起来,比如把Claude Opus和Gemini串成两到三个节点的工作流,做一个完整的产出,然后拿它去写文章、录视频。这类需求非常多。
此外,还有许多自媒体用户觉得每天跟热点压力很大,经常跟不过来。他们希望能够用Refly.AI搭一个工作流,每天自动抓热点,再按照自己的风格,批量生成文章或播客内容,然后去做推广和投放。Refly.AI团队自己活跃在Twitter,有大概3万粉丝,对这个场景有比较强的实感,也看到这里确实需要这样的工具。
数据飞轮:用户行为的核心价值
Refly.AI的长期目标不仅仅是提供一款易用的Workflow工具,更是要通过Workflow收集用户最有价值的数据——用户的行为数据。
在传统的Dify时代,大家更多只讲「知识库」:把知识丢进来,但知识本身的价值有限,因为模型不知道用户在真实完成一个任务时,具体的执行步骤是怎么走的,用户的思考路径是什么。缺少行为,这些知识其实很难发挥真正价值。
在Refly.AI里,用户在跟AI交互的过程中,其实是在同步沉淀知识+行为。举个例子:用户有一个需求,要抓Product Hunt上的内容发到自己邮箱。在这个过程中,用户会不断表达个性化偏好:想抓周榜、日榜还是月榜?希望抓完之后不仅生成音频,还想生成一个「双口相声」版本发给自己?这些都是用户的preference。
在这个过程中,模型帮用户完成了第一层冷启动,而用户把个性化知识融进了自己的行为里,这整套交互就构成了用户和Workflow之间的一种「个性化经验+action」。
对平台来说,这意味着采集到了用户最有价值的数据——用户是如何围绕一个任务,完成一系列行为的。这有点类似今年大家常提到的DeepSeek的「思维链数据」:即模型在完成一个任务时,每一步的思考和执行路径。Refly.AI实际上就是在帮助用户沉淀这种「思维链行为数据」。
第二点是:一个用户在工作场景中的思维模式,其实是相对有限且可枚举的。比如一个内容工作者,日常工作大体就是几条路径:关注热点→做选题→产出内容→做分发。这些行为是可以被枚举出来的。
这就意味着,一旦平台能够把用户的这些行为路径都枚举出来,真正感知到用户作为内容创作者,在这个环境里可能产生的各种动作,平台就可以对「这个人」做一个建模:在下一个时间点,出现类似情境时,用户大概率会采取什么action,平台是可以去做「predict next action」的。
从画布到Workflow:产品演进的历程
Refly.AI的产品形态经历了多次重大转变,这与创始人黄巍在飞书的经历有很大关系。
黄巍在飞书负责过字节最早一批「大模型+低代码+Workflow」的项目Aily,Coze的核心成员也来自那支团队。所以,这批人对「AI+Workflow」有比较系统的认知。黄巍自己在飞书做过程序员、产品、销售、设计和运营等各种岗位,等于把第一代低代码Workflow的全链路都跑了一遍。
第二阶段,是他们在飞书内部做的「AI前沿+低代码」项目。简单说,就是用AI重构低代码的所有模块:AI生成数据模型、生成流程、生成界面,甚至生成全栈应用。后来这个方向产品化,变成了Aily。他们当时有一个判断:在AI时代,低代码会长出一种新形态——只要有一个足够强的Workflow,就能承载搭建App的全过程。界面可以交给AI生成,数据可以作为Workflow的一个tool,在流程运行过程中读写。
但产品对外之后,他们发现一个现实问题:即使给Workflow加了AI,故事很美好、内部体验也不错,普通用户依然用不起来。本质形态还是传统Workflow,只是加了一些AI节点,更像是n8n的进化版。
于是,Refly.AI开始了几层降复杂度的尝试:
第一步,把原来一个画布里可能上百个节点,收敛成只针对一个具体问题的5-8个节点的Workflow;
第二步,在此基础上引入agent,让AI来生成Workflow本身,进一步降低搭建成本。
再往下,就是现在的路径:从「深度画布」到「可落地的Workflow」,再到「把Workflow封装成一个个模板」。这意味着,大部分用户只需要消费别人封装好的流程,少部分高阶用户来生产和分享流程。通过这一系列演进,Refly.AI一边降低复杂度,一边放大使用的泛化性,让「AI+Workflow」真正有机会被更广泛的人用起来。
团队建设:专才与AI的协同
Refly.AI团队现在有十三四个人,在团队建设上,他们有着独特的理念。
黄巍坦诚,他们在测试这件事上踩过很大的坑。他之前在公司里很多角色都干过,唯独没做过测试,写代码也基本不写测试,所以一开始对测试的价值是有偏见的。扩团队时,他理想中的研发同学是那种端到端的人:既懂用户需求,又能写代码、自己测、自己上线,看结果复盘。后来发现,这种人早期很难大规模招到。
其次,Refly.AI的产品因为是Workflow,很复杂,好多bug。他们发了一版测试版给用户去用,全是bug。当时痛定思痛,觉得得招个测试进来。两天之内就招到了人,进来之后,整个节奏立刻不一样:测试同学每天push他们修问题,产品质量稳定性肉眼可见地上来了。
通过这个经历,黄巍懂得了一个道理:现在大家鼓吹的所谓「一人公司」,或者一个人可以把所有事情干完,是很美好的愿望。但互联网分工这套方法论,已经被无数家公司验证过,他们不应该把它丢弃掉。
他们的原则是:在「非重度」方向,每个方向至少招一个特别优秀的人,把这件事完整跑通,只有在确实需要扩张时才上第二个、第三个。在「重度」方向,比如研发、算法、模型调优,会投入更多人力。
站在模型肩膀上做产品
Refly.AI对AI模型的使用有着独特的理解。面对现在的大模型,给它太多工具之后会陷入不知道怎么选的问题,Refly.AI的解决方案是:
让AI从1000种工具里「选择」工具,而不是直接用这些工具去「执行」。「选择」和「执行」这两个任务的复杂度是不一样的,「选择」这个任务非常简单。
他们把任务拆成两块:一个模型专门负责挑工具、写action和workflow;另一个模型只负责执行具体任务。每个agent节点实际能用的工具不超过3个,通常只有一到两个,对应的prompt也非常简单。他们的目标是:每个agent节点只做一件非常具体的小事,一到两个工具就能搞定,然后把复杂任务拆成5~10个这样的小任务。
这样做有两个好处:
不同模型各司其职。像Kimi K2这种适合执行的模型,就专注把单个步骤做好——便宜、准、稳定、速度快;像GPT-5、Claude Sonnet 4.5这种更强的模型,就负责从成千上万的工具中筛选、规划,把任务拆解成一条条可执行的workflow。
他们可以用一个稳定的编排引擎,把这些简单节点串起来,完成非常复杂的任务,而不是指望某一个「大而全」的agent。
本质上,这是他们对模型边界的一种利用方式:不用去强碰模型当下还「不擅长」的能力,而是把问题拆到模型能稳定发挥的区间,让产品形态和模型能力「贴合」增长,而不是被拖着走。
Refly.AI的产品做了一件非常巧妙的事情:让贵的、强的模型去做拆任务,让简单的模型去做执行。
创业心法:别做错事,持续迭代
对于Refly.AI的未来发展,黄巍有着清晰的规划。短期内,他们觉得Vibe Workflow有可能是一个新的原生内容平台的机会。AI来了之后,大家都在想AI时代的社区和内容平台是什么样子的。AI最大的能力在于它可以生成内容,以及它的主动性和自动化。那未来的AI内容平台,是不是内容可以极度个性化地定制?用户表达一句话可以生成内容,并对它做编辑、消费和修改。
长期的终局,就像他们说的,他们拿到的是用户在一个工作生命周期里所有的行为和意图数据。那未来是不是能给用户一个更简单的交互方式?他只需要一个无时不在、感知不到的硬件,就能去和AI做交互,完成自己的任务。比如他走在路上说「你帮我开一辆特斯拉去接我的女儿」,他可以去做这种侵入到物理世界的action,并且这个action本身的价值、准确率和个性化都非常高。
对于其他AI应用创业者,黄巍有三点建议:
第一,看一个事情,可能要把它拉长到一个维度去看。一个事情在半年这个维度可能看上去很有价值,但拉到1~2年,要问自己:这个产品还能活吗?现在大家都在讲快速落地、快速试错、快速拿结果,但从他的视角,早期可以慢一点,关键是「别做错事」。
第二,产品一定要比模型的能力迭代要快3-6个月,并且要在3-6个月之内把自己的想法实践落地,并推向市场和商业化。如果能不断地重复这样的周期,就能跑赢这个市场,跑赢模型厂商。
第三,早期一定要找到那种价值观和想法对齐的团队。确实要找到那种调性相投的,而不是一味地去看名校背景或光鲜履历。真正能打仗的人,他不一定是履历光鲜的,可能就是普普通通,但他确实能把事情干成。
Refly.AI的故事还在继续,他们的Vibe Workflow正在重新定义AI工作流工具的边界,为用户带来前所未有的体验和价值。在AI技术不断发展的今天,这样的创新不仅具有商业价值,更预示着未来人机协作的新可能。

