在使用AIGC进行绘本创作的道路上,我深切体会到AI工具的强大与局限。特别是使用Midjourney时,人物一致性问题一直困扰着我。经过一段时间的摸索,我总结出一些小技巧,希望能缓解这个问题对作品质量的影响。
一、难题聚焦:Midjourney人物一致性挑战
Midjourney提供了--sref
(风格一致性)和--cref
(人物一致性)两个命令。为了展示cref
的效果,我们先生成一张图(图1),图中是一位穿着黄色裙子的女孩。
如果想让她在厨房做饭,可以使用cref
指令。默认情况下,cw
值为100,会捕捉角色的整体特征,包括姿势。可以看到,生成的新图(图2)在脸部、发型和服装上与原图保持了较高的一致性,甚至连举手的动作也被保留了下来。
然而,在实际应用中,cref
命令在处理单人画面时效果尚可,但当画面中出现两个或两个以上的人物,尤其是同性角色时,效果往往不尽如人意。
例如,我们生成一张包含一位老奶奶和一个小女孩的图片(图3)。
直接使用这张图进行角色迁移,结果却差强人意(图4)。
从图4可以看出,当画面中存在多个角色时,Midjourney难以区分“老奶奶”和“小女孩”,导致角色特征错乱,甚至出现人物融合的情况。只有U1勉强保持了一致性,但小女孩的体型与老奶奶相仿,与原图差异较大,无法直接使用。
二、业界方案:PS大法与局部重绘
在各大平台上搜索“MJ多人物一致性”,发现相关攻略大多基于单人角色,难以解决我的实际问题。
有从业者提到,许多人依赖Photoshop来解决这个问题,即分别生成多个角色,然后将它们抠图并拼合在一起。
CSDN博主“AI绘画小33”提出了另一种方法:先生成一个大致符合要求的底图,然后利用局部重绘功能替换不合适的角色面容,并逐步修改细节,最终获得满意的效果。(可在CSDN搜索“Midjourney角色一致性如何控制两个人物”找到这篇文章。)
此外,B站上有博主搬运了一个外网视频,该视频的作者通过垫图和调整prompt来改善人物一致性,并发现了Midjourney在处理两个动物或两个同性角色时容易出错的技术盲区。
三、我的诉求:效率至上,兼顾质量
我主要使用Midjourney制作英文绘本。流程通常是先用ChatGPT生成英语故事,再将故事改编成包含中英文字幕和画面描述的脚本,最后由ChatGPT根据画面描述生成Midjourney指令。
由于故事内容千变万化,难免会出现动物或同性人物的场景。对于绘本而言,人物和风格的一致性至关重要。如果采用上述方法,我需要花费大量时间调整一致性,这会严重影响工作效率。
因此,我的核心需求是:步骤尽可能少,效果尽可能好。“步骤尽量少”意味着操作简单,无需过多思考,并且花费的时间少。“效果尽量好”则意味着我并不追求完美,只要人物看起来相似即可。毕竟,绘本视频中的图片展示时间很短,观众不会过于关注细节。对于自媒体创作来说,效率往往比完美更重要。
效率与质量的平衡至关重要。如果追求更高质量的图片,上述方法或许能带来更好的效果。
四、我的方法:sref与cref的妙用
为了保证绘本故事的连贯性,画面需要风格一致,人物特征也要相似。基于这个思路,我将sref
和cref
两个指令结合使用,取得了不错的效果。下面我将结合实例详细说明。
第一步:确定角色,生成“全家福”
首先,我们需要确定故事中包含哪些人物,并将他们放在同一个场景中,生成一张“全家福”(图5)。
这是一个关于小女孩和妈妈去超市购物的故事,只涉及两个角色:小女孩和妈妈。主要的人物特征包括:小女孩长发绿裙,妈妈短发白裙。理想情况下,这四个特征都需要得到体现。
第二步:截取单人照
接下来,我们需要分别截取出小女孩和妈妈的单人照(图6)。如果在后续的画面中只需要出现小女孩或妈妈,则使用对应的单人照作为参考。
第三步:风格迁移,生成新图
当需要生成母女在厨房的场景时,可以使用新的prompt,并结合sref
和图6的单人照,生成具有相同风格的新图片。这里将sw
设置为100(图7)。
请注意,sref
后面添加的参考图必须是单人照!如果使用双人照,会导致特征混乱。
此时,生成的新图片能够很好地表现人物的动作,赋予图片故事性,同时也继承了原图的风格。接下来,我们需要纠正人物特征。
我对U4的动作比较满意,因此选择V4,继续进行修改。
第四步:特征融合,调整细节
使用prompt,并结合cref
和图5的“全家福”,设置cw
为20(图8)。
生成的新图如图9所示。
此时,小女孩穿着绿裙子,留着短发,妈妈穿着白色衣服,留着短发,即四个特征中的服装部分得到了体现,同时保留了母亲的发型特征,人物脸部也得到了较好的模仿。最终,我选择了U1作为故事配图。
对比一下原图和生成的新图(左为原图,右为新图)。
当然,这种方法也存在不足,例如小女孩的头发从长发变成了短发,母亲的裙子变成了蓝色半裙。但大部分特征还是得到了保留。对于短视频来说,这样的效果已经足够。
五、总结与展望
- 方法总结:生成“全家福” → 截取单人照 → 新prompt +
sref
单人照 +sw
100(得到图A) → 从图A中挑选一张,点击V1/2/3/4 → prompt不变 +cref
全家福 +cw
20,生成最终想要的图片。 - 优点:画风一致,人物长相相似,操作快速简单。如果生成效果不理想,可以多尝试几次。
- 缺点:细节不足,只能保留部分特征。随机性较高,不适合对画面要求非常高的场景。
需要再次强调的是,这种方法仍然存在局限性。如果您有更好的方法,欢迎与我交流。