就在昨天,Stability AI官方推出了Stable Video Diffusion(简称SVD)开源视频生成模型。SVD支持图像转视频、文本生成视频,同样具备多视角合成和微调功能
官方同时还晒出测试数据称,SVD的模型性能碾压RunwayML、Pika Labs等领先的闭源商业模型。Stable Video Diffusion 实际上是由两个模型组成的 ——SVD 和 SVD-XT。SVD 可以将静态图片转化为 14 帧的 576×1024 的视频。SVD-XT 使用相同的架构,但将帧数提高到 24。两者都能以每秒 3 到 30 帧的速度生成视频,用户可以以每秒3~30帧之间的自定义帧速率
显著优势
- 高质量输出: 模型能生成接近真实的视频内容,细节丰富,色彩逼真。
- 快速响应: 相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。
- 创意自由度: 用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。
局限性
- 生成的视频相当短(<= 4 秒),并且模型没有达到完美的照片级真实感。
- 该模型可能会生成没有运动的视频,或者相机平移速度非常慢。
- 无法通过文本控制模型。
- 模型无法呈现清晰的文本。
- 一般情况下,人脸和人可能无法正确生成。
- 模型的自动编码部分是有损的。
在线体验
目前SVD只发布了基础模型,想要体验SVD又苦于硬件实力不够的玩家,可以上HuggingFace体验SVD的“图生视频”功能。进入界面,左边拖入图片,右边为生成的视频,点击高级选项,可选择种子(Seed)编号、控制运动幅度以及调节帧率等,设置好后,点击“Generate”即可生成视频。
- HuggingFace地址:
- 官网体验地址
费用说明
如果不想自己部署,可以到官方进行在线体验,除了每日 150 个赠送积分外,还新增了积分购买选项,目前提供两种积分包(积分永久有效):
- 500积分/$10,约 50段视频
- 3000积分/$50,约 300 段视频
相关链接
官网体验地址:Stable Video | Generate Videos with AI
- 项目地址:
https://github.com/Stability-AI/generative-models
- 本地部署参考:
图片生成视频来了:Stable Video Diffusion使用教程 - 掘金 (juejin.cn)
- Stablediffusion-webui-forge官方网址:
https://github.com/lllyasviel/stable-diffusion-webui-forge
- SVD 1.1官方网址:
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1
- 模型库储存库:
https://github.com/Stability-AI/generative-models
- 官方模型运行至少需要16G显存,针对8G显存的卡,建议使用16bit量化后的模型:
becausecurious/stable-video-diffusion-img2vid-fp16 at main
- ComfUI秋叶整合安装包:
https://pan.quark.cn/s/05bd1c0b1999
- 官方应用候补名单申请: