AI进化:港科大&快手“进化搜索”让小模型超越GPT-4o

2

AI模型小型化逆袭:香港科技大学与快手联合研发“进化搜索”技术

长期以来,人工智能(AI)绘画领域普遍存在一种观念,即高质量图像和视频的生成依赖于更大的模型、更多的参数和更强的算力。然而,香港科技大学与快手科技的研究团队近期提出的EvoSearch(进化搜索)技术,正在挑战这一传统认知,为AI作画领域带来一场革新。

image.png

这项技术的突破性在于,仅有865M参数的Stable Diffusion2.1模型,在应用EvoSearch后,其生成质量竟然超越了强大的GPT-4o模型。更令人印象深刻的是,参数为1.3B的Wan模型,在EvoSearch的加持下,能够与参数高达14B的模型相媲美。这一成果预示着AI模型不再需要单纯依赖“大力出奇迹”,小模型同样可以通过创新算法实现性能飞跃。

当前AI生成模型的挑战

目前,主流的AI生成模型主要分为两大类:扩散模型和流模型。扩散模型通过逐步消除噪声来生成清晰的图像,类似于将模糊照片逐渐变得清晰的过程;而流模型则通过一系列平滑的变换,直接将随机噪声转化为目标图像。

为了提升这些模型的性能,业界通常采用两种策略。一是增加模型规模并喂入更多数据进行训练,但这种方式成本高昂,且已接近资源极限。二是在推理阶段进行优化,包括Best-of-N采样(生成N张图片并选择最佳的一张)和粒子采样(维护多个候选方案并筛选优秀个体)等方法。然而,这些方法都存在一定的局限性。

image.png

Best-of-N方法效率低下,因为大量的计算资源被浪费在生成低质量的“废品”上。粒子采样方法则过于保守,容易陷入局部最优解,缺乏主动探索能力。其他微调方法要么需要额外的训练,要么容易导致生成的样本缺乏多样性。这些问题限制了AI生成模型的发展。

EvoSearch:AI作画领域的“进化论”

EvoSearch的核心创新是将达尔文进化论的思想引入AI生成过程。该方法将图像生成视为一个物种进化过程:首先生成初始“种群”(随机噪声),然后通过“适应度评估”对半成品进行打分,接着进行“优胜劣汰”,选择优秀的个体,最后通过专门设计的“变异”操作产生新的候选方案。

这种变异操作是EvoSearch的关键技术突破。对于初始噪声,系统通过添加适量高斯噪声实现变异;对于去噪过程中的中间状态,则借鉴随机微分方程采样的随机性注入方式,给中间状态引入可控扰动。这种设计既能探索新的区域,又能保持优秀的“基因”。

EvoSearch的核心在于模拟自然选择的过程,通过对图像生成过程中的噪声进行智能变异,并根据预设的评价标准筛选出更符合要求的图像,不断迭代优化,最终生成高质量的作品。这种方法不仅提高了生成效率,还赋予了AI模型更强的创造力和适应性。

EvoSearch的技术优势

与传统方法相比,EvoSearch具有三大优势:

  1. 主动探索而非被动筛选:EvoSearch能够跳出初始候选池的限制,主动探索更广阔的可能性空间,从而避免了传统方法容易陷入局部最优解的问题。
  2. 有效平衡探索与利用:EvoSearch能够有效地平衡探索新区域和利用已知优秀方案之间的关系,避免过早收敛到局部最优,从而保证了生成结果的多样性和质量。
  3. 通用性强:EvoSearch适用于各种扩散模型和流模型,无需修改模型结构或进行额外训练,具有很强的通用性和可扩展性。

实验结果:全方位“降维打击”

为了验证EvoSearch的有效性,研究团队在图像和视频生成任务上进行了全面测试。结果显示,EvoSearch在各项指标上都显著优于现有的基线方法。

在图像生成方面,随着推理计算量的增加,EvoSearch生成的图片质量和文本匹配度持续稳定提升,而其他方法很快达到瓶颈。对于复杂或容易产生歧义的提示词,EvoSearch能够更准确地理解并生成符合要求的图片,同时在背景、姿态等方面展现出更丰富的多样性。这意味着EvoSearch能够更好地理解人类的意图,并将其转化为高质量的图像。

视频生成方面的表现更为惊人。无论使用万象Wan1.3B模型还是混元HunyuanVideo13B模型,EvoSearch的生成质量都显著超越基线方法。最令人印象深刻的是,当为Wan1.3B模型分配与Wan14B模型相同的推理时间预算时,前者配合EvoSearch的组合效果竟能与后者打平甚至超越。这充分证明了EvoSearch在提升模型性能方面的巨大潜力。

EvoSearch的泛化能力

值得注意的是,即使评价指标与EvoSearch搜索时使用的奖励函数不完全一致,该方法依然表现出良好的泛化能力,不容易被特定奖励函数误导。这意味着EvoSearch不仅仅是针对特定评价指标的优化,而是能够提升模型的整体性能。

在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的胜率。这进一步证明了EvoSearch在实际应用中的价值。

技术启示与未来展望

EvoSearch的成功为AI生成领域带来了重要的启示:

  1. 推理阶段优化的重要性:在训练成本日益高昂的今天,通过在推理阶段投入更多计算来提升模型性能是一条极具价值的探索路径。EvoSearch证明了,即使不依赖于庞大的模型和海量的数据,也可以通过精巧的算法设计实现性能的飞跃。

  2. 生物进化思想的应用:将生物进化中的选择和变异思想引入AI生成领域,能够有效克服传统搜索方法的局限性。EvoSearch的成功为我们提供了一个新的思路,即可以从自然界中汲取灵感,用于解决AI领域的问题。

  3. 深入理解模型内部机制:EvoSearch的成功离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,据此设计了针对性的变异策略,从而能够更有效地探索巨大的可能性空间。

EvoSearch的未来发展方向

当然,EvoSearch也存在进一步优化的空间。研究团队指出,未来的改进方向包括设计更智能的变异策略、更好地平衡探索和计算效率等。

总的来说,EvoSearch技术向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的“智能进化”时代,让小模型也能创造出令人惊艳的作品。

EvoSearch的出现,无疑为AI生成领域带来了新的希望。它不仅降低了AI创作的门槛,也为未来的AI模型发展指明了方向。我们有理由相信,随着EvoSearch技术的不断完善和应用,AI创作将会变得更加普及和高效,为人类带来更多的惊喜和可能性。

项目主页:https://tinnerhrhe.github.io/evosearch/

代码:https://github.com/tinnerhrhe/EvoSearch-codes

论文:https://arxiv.org/abs/2505.17618