曾经介绍了用ControlNet结合Mov2Mov插件生成新的视频。虽然它能够快速的对视频中的人物进行转换,但是还存在难以解决的闪烁问题。
造成闪烁的原因很简单,是因为AI是一帧一帧生成图片然后再合成的,所有每张图片本质上不太连贯,最后就会造成视频闪烁的出现。
但是这个难题近期被南洋理工大学的团队很好的解决。首先来看看他们生成的视频效果:
可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。
不仅仅在人物方面能够解决“闪烁”问题,就连建筑上也能够很好的hold住不同的风格:
同时帧与帧之间比较流畅,已经能够和正常的视频相媲美了。
这样的前景大有用途,我们久可以利用现有的视频生成不同另一种不同的风格。比如把一个雕像转换成一个真实的人物也是轻而易举:
从放出的论文中可以看出,作者把这个方法称为“零样本文本指导视频翻译”方法。具体方法包含两个部分:关键帧翻译和完整视频翻译。
利用第一个渲染帧当锚点来调节渲染过程,相当于整体把握生成的风格走向,不至于生成的时候偏离太多。在扩散采样的不同阶段实现了分层交叉帧约束。
利用上面的方法进行生成后,在连续的十几秒中,每一幅图片的细节都生成相似,就能够有效缓解视频闪烁的情况出现。
下图是作者对比Stable-Diffusion的结果:
当然,在不同的模型比较上,该作者提出的方法在生成视频的稳定性上效果明显提高:
同时,在输入文本中仅需更改几个词语,在视频背景保持不变的情况下,可以不断的调节视频中的细节,例如人物的毛发,五官等等。
目前作者已经开放了Demo版本可以进行尝试,感兴趣的可以去这个网站试用一下: https://huggingface.co/spaces/Anonymous-sub/Rerender
同时完整代码会在不久的将来公开,让我们期待一下把:
|