Midjourney绘本人物一致性难题？sref与cref指令的妙用分享

在使用AIGC进行绘本创作的道路上，我深切体会到AI工具的强大与局限。特别是使用Midjourney时，人物一致性问题一直困扰着我。经过一段时间的摸索，我总结出一些小技巧，希望能缓解这个问题对作品质量的影响。

一、难题聚焦：Midjourney人物一致性挑战

Midjourney提供了--sref（风格一致性）和--cref（人物一致性）两个命令。为了展示cref的效果，我们先生成一张图（图1），图中是一位穿着黄色裙子的女孩。

黄裙女孩

如果想让她在厨房做饭，可以使用cref指令。默认情况下，cw值为100，会捕捉角色的整体特征，包括姿势。可以看到，生成的新图（图2）在脸部、发型和服装上与原图保持了较高的一致性，甚至连举手的动作也被保留了下来。

然而，在实际应用中，cref命令在处理单人画面时效果尚可，但当画面中出现两个或两个以上的人物，尤其是同性角色时，效果往往不尽如人意。

例如，我们生成一张包含一位老奶奶和一个小女孩的图片（图3）。

老奶奶和小女孩

直接使用这张图进行角色迁移，结果却差强人意（图4）。

角色迁移失败

从图4可以看出，当画面中存在多个角色时，Midjourney难以区分“老奶奶”和“小女孩”，导致角色特征错乱，甚至出现人物融合的情况。只有U1勉强保持了一致性，但小女孩的体型与老奶奶相仿，与原图差异较大，无法直接使用。

二、业界方案：PS大法与局部重绘

在各大平台上搜索“MJ多人物一致性”，发现相关攻略大多基于单人角色，难以解决我的实际问题。

有从业者提到，许多人依赖Photoshop来解决这个问题，即分别生成多个角色，然后将它们抠图并拼合在一起。

CSDN博主“AI绘画小33”提出了另一种方法：先生成一个大致符合要求的底图，然后利用局部重绘功能替换不合适的角色面容，并逐步修改细节，最终获得满意的效果。（可在CSDN搜索“Midjourney角色一致性如何控制两个人物”找到这篇文章。）

此外，B站上有博主搬运了一个外网视频，该视频的作者通过垫图和调整prompt来改善人物一致性，并发现了Midjourney在处理两个动物或两个同性角色时容易出错的技术盲区。

三、我的诉求：效率至上，兼顾质量

我主要使用Midjourney制作英文绘本。流程通常是先用ChatGPT生成英语故事，再将故事改编成包含中英文字幕和画面描述的脚本，最后由ChatGPT根据画面描述生成Midjourney指令。

由于故事内容千变万化，难免会出现动物或同性人物的场景。对于绘本而言，人物和风格的一致性至关重要。如果采用上述方法，我需要花费大量时间调整一致性，这会严重影响工作效率。

因此，我的核心需求是：步骤尽可能少，效果尽可能好。“步骤尽量少”意味着操作简单，无需过多思考，并且花费的时间少。“效果尽量好”则意味着我并不追求完美，只要人物看起来相似即可。毕竟，绘本视频中的图片展示时间很短，观众不会过于关注细节。对于自媒体创作来说，效率往往比完美更重要。

效率与质量的平衡至关重要。如果追求更高质量的图片，上述方法或许能带来更好的效果。

四、我的方法：sref与cref的妙用

为了保证绘本故事的连贯性，画面需要风格一致，人物特征也要相似。基于这个思路，我将sref和cref两个指令结合使用，取得了不错的效果。下面我将结合实例详细说明。

第一步：确定角色，生成“全家福”

首先，我们需要确定故事中包含哪些人物，并将他们放在同一个场景中，生成一张“全家福”（图5）。

全家福

这是一个关于小女孩和妈妈去超市购物的故事，只涉及两个角色：小女孩和妈妈。主要的人物特征包括：小女孩长发绿裙，妈妈短发白裙。理想情况下，这四个特征都需要得到体现。

第二步：截取单人照

接下来，我们需要分别截取出小女孩和妈妈的单人照（图6）。如果在后续的画面中只需要出现小女孩或妈妈，则使用对应的单人照作为参考。

单人照

第三步：风格迁移，生成新图

当需要生成母女在厨房的场景时，可以使用新的prompt，并结合sref和图6的单人照，生成具有相同风格的新图片。这里将sw设置为100（图7）。

请注意，sref后面添加的参考图必须是单人照！如果使用双人照，会导致特征混乱。

风格迁移

此时，生成的新图片能够很好地表现人物的动作，赋予图片故事性，同时也继承了原图的风格。接下来，我们需要纠正人物特征。

我对U4的动作比较满意，因此选择V4，继续进行修改。

第四步：特征融合，调整细节

使用prompt，并结合cref和图5的“全家福”，设置cw为20（图8）。

生成的新图如图9所示。

此时，小女孩穿着绿裙子，留着短发，妈妈穿着白色衣服，留着短发，即四个特征中的服装部分得到了体现，同时保留了母亲的发型特征，人物脸部也得到了较好的模仿。最终，我选择了U1作为故事配图。

最终效果最终效果2

对比一下原图和生成的新图（左为原图，右为新图）。

效果对比

当然，这种方法也存在不足，例如小女孩的头发从长发变成了短发，母亲的裙子变成了蓝色半裙。但大部分特征还是得到了保留。对于短视频来说，这样的效果已经足够。

五、总结与展望

方法总结：生成“全家福” → 截取单人照 → 新prompt + sref单人照 + sw100（得到图A） → 从图A中挑选一张，点击V1/2/3/4 → prompt不变 + cref全家福 + cw20，生成最终想要的图片。
优点：画风一致，人物长相相似，操作快速简单。如果生成效果不理想，可以多尝试几次。
缺点：细节不足，只能保留部分特征。随机性较高，不适合对画面要求非常高的场景。

需要再次强调的是，这种方法仍然存在局限性。如果您有更好的方法，欢迎与我交流。