欢迎光临散文网 会员登陆 & 注册

开源Stable Video Diffusion:个人轻松生成短视频的时代到来了

2023-11-24 10:44 作者:ReadPaper论文阅读  | 我要投稿

Stability AI发布了“稳定视频扩散”(Stable Video Diffusion)模型,这是一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型通过在小型、高质量的视频数据集上插入时间层并微调,将用于2D图像合成的潜在扩散模型转化为生成视频模型。研究发现,预训练在精心策划的数据集上对生成高质量视频至关重要,并提出了一种系统化的策划过程来训练强大的基础模型。此外,该模型还提供了强大的运动表示,用于图像到视频生成和适应特定摄像机运动的LoRA模块,以及作为微调多视图扩散模型的基础,以前馈方式共同生成对象的多个视图。

论文:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

Github(模型和权重):https://github.com/Stability-AI/generative-models


数据准备

一个大型视频数据集(LVD)的构建过程:首先,通过一个分层的剪辑检测流程,避免了剪辑和淡入淡出效果的影响,大幅增加了视频片段的数量。其次,采用三种不同的合成字幕方法对视频片段进行标注,增加了数据的丰富性和多样性。为了提高数据集质量,还进行了一系列的筛选和优化工作,包括使用密集光流技术过滤掉静态或运动较少的场景,应用光学字符识别技术去除含有大量文本的片段,以及使用CLIP嵌入进行审美和文本-图像相似度的评估。最终,LVD包含580百万对已标注视频片段,总计212年的内容。


模型训练

团队使用从消融实验中推断出的最佳数据策略,在320×576的分辨率上训练了一个强大的基础模型。随后对该模型进行了微调,使其适应包括文本到视频、图像到视频和帧插值等不同的任务。而且,视频预训练在提供隐式三维先验方面的有效性,特别是在多视图生成任务上,其性能超过了同期的其他研究成果,如Zero123XL和SyncDreamer。


用户调研

Stable Video Diffusion 项目推出了两种创新的图像至视频模型,这些模型可以生成14帧或25帧的视频,帧率可在每秒3到30帧之间自定义。这些模型在发布时已经通过了外部评估,并在用户偏好研究中表现出色。(虽然不知道,具体对比是咋样的,不过反正开源了,大家下载来自己试试就好了。)


 观点

学术:这项研究在理解和改进视频生成模型方面迈出了重要一步,特别是里面关于数据的准备是非常有借鉴意义的。而且,这不仅仅是生成视频,对3D合成也是有帮助的。

商业:这种高质量的视频生成技术可能会革新媒体制作、广告、娱乐和虚拟现实领域。它为创造逼真、高分辨率的视频内容提供了一种有效的方法,可能会引领新的短视频创作。


特邀作者:日本早稻田大学计算机系博士生  王军杰


开源Stable Video Diffusion:个人轻松生成短视频的时代到来了的评论 (共 条)

分享到微博请遵守国家法律