Stable Video

📋 资质核验 核验日期:2026-06-14未独立实测 🟡 中级

Stability AI推出的开源视频生成方案,免费可本地部署,社区活跃持续更新,开发者友好

开源免费国际
📅 收录: 2026-06-06 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. Stable Video

Stable Video 快速入门

想完全掌控自己的 AI 视频模型?Stable Video Diffusion 是少数能让你本地部署的开源方案。

这是什么?适合谁?

Stable Video Diffusion(简称 SVD)是 Stability AI 在 2023 年底开源的视频生成模型,是 Stable Diffusion 系列在视频领域的延伸。它最大的特点是完全开源——模型权重、推理代码、训练代码都在 Hugging Face 和 GitHub 上公开,任何人都可以下载、修改、商用(遵守 Stability AI 的非商业研究许可,商用需要联系官方)。这与 Runway、Sora、Pika 等闭源商业产品形成鲜明对比,也让它在 AI 研究圈、开源社区、独立开发者圈积累了大量用户。

SVD 基于扩散模型架构,支持图生视频(Img2Vid)和多帧视频(SVD-XT),能生成 14-25 帧的短视频片段(2-4 秒左右),分辨率支持 576×1024 等多种规格。它不像 Pika、Runway 那样有花哨的网页界面,而是定位为”研究者和开发者的工具”——你得懂点 Python、装得了 PyTorch、跑得动 GPU。它的姊妹项目 Stable Video 4D(SVD4D) 还支持多视角视频生成,可以在多个角度同时生成同一主体的视频,在 3D 建模、VR 内容生成上有重要应用。

适合谁用:第一类是 AI 研究者和工程师,需要可控的开源模型做实验、二次训练;第二类是想做”私有化部署”的企业,数据敏感不能传第三方平台;第三类是 AI 视频创业团队,把 SVD 当作基座模型做行业方案(电商试穿、动画预演);第四类是想深入理解扩散模型内部原理的学习者;第五类是做 LoRA/ControlNet 微调的爱好者,基于 SVD 微调出特定风格/主体的视频模型。不适合谁:完全没碰过 Python、不想折腾环境、只想”输入文字就出片”的小白——SVD 没有 Web 界面,命令行是主要交互方式。

准备工作

硬件要求(至少):

  • NVIDIA GPU 显存 ≥ 8GB(推荐 16GB+ 如 RTX 4090、A100);
  • 系统内存 32GB 以上;
  • 硬盘至少 50GB 可用空间(模型权重约 10-20GB);
  • Linux/macOS/Windows 均可(Windows 需 WSL2 或原生支持)。

软件要求:

  • Python 3.10+;
  • PyTorch 2.0+(推荐 CUDA 11.8 或 12.1);
  • Git、Conda(或 venv);
  • Hugging Face 账号(用于下载模型权重)。

3 步快速上手

第 1 步:克隆仓库并安装依赖

打开终端,克隆官方仓库并创建虚拟环境:

git clone https://github.com/Stability-AI/generative-models.git
cd generative-models

conda create -n svd python=3.10 -y
conda activate svd

pip install -r requirements.txt
pip install -e .

或者使用 Stability 官方精简推理仓库:

git clone https://github.com/Stability-AI/stable-video-diffusion-img2vid.git
cd stable-video-diffusion-img2vid
pip install -r requirements.txt

第 2 步:下载模型权重

从 Hugging Face 下载 SVD 模型(stabilityai/stable-video-diffusion-img2vid-xt 是 25 帧的扩展版):

huggingface-cli login
huggingface-cli download stabilityai/stable-video-diffusion-img2vid-xt \
  --local-dir checkpoints/svd-xt

模型约 10-20GB,需要稳定网络。下载后确保目录结构正确:

checkpoints/
└── svd-xt/
    ├── unet/
    ├── vae/
    ├── scheduler/
    └── ...

第 3 步:跑第一个图生视频

准备一张输入图(放在 examples/image.png 位置),然后运行推理脚本:

import torch
from diffusers import StableVideoDiffusionPipeline
from diffusers.utils import load_image, export_to_video

pipe = StableVideoDiffusionPipeline.from_pretrained(
    "checkpoints/svd-xt",
    torch_dtype=torch.float16,
    variant="fp16",
)
pipe.to("cuda")

image = load_image("examples/image.png").resize((1024, 576))
frames = pipe(image, num_frames=25, decode_chunk_size=8).frames[0]
export_to_video(frames, "output.mp4", fps=7)

执行后等待 1-3 分钟(取决于 GPU),即可在 output.mp4 拿到 25 帧约 3.5 秒的视频。免费、可商用研究、可本地——这就是 SVD 的核心价值。

常见踩坑

  1. 显存不够爆 OOM:OOM 是新手最常见的问题,解决方案是 decode_chunk_size=2、开启 enable_model_cpu_offload()、或者直接上 A100/4090。
  2. 模型下载失败:Hugging Face 国内经常被墙,设置镜像 export HF_ENDPOINT=https://hf-mirror.com 后重新下载。
  3. 生成人物崩坏:SVD 对真实人脸训练数据少,人物头部容易变形;建议输入图用风景、动物、产品等主体。
  4. 视频只有 4 秒:当前 SVD 模型支持到 25 帧(约 3.5 秒 @ 7fps),要更长视频需要循环 Extend 或者接续生帧,工程量不小。
  5. 商用许可问题:SVD 默认许可不允许商业用途,商用前必须联系 Stability AI 拿到 Enterprise License,否则有法律风险。
  6. 不动/抖得太厉害:SVD 默认生成的是”轻微运动”风格,如果你想要剧烈运动或运镜变化,需要 fine-tune 或换工具。

初级用法

用法 1:把摄影作品变成微动效

把一张城市风光照丢进 SVD,生成 4 秒的”轻微推镜头”效果,适合做动态壁纸或作品集展示。

用法 2:做产品展示动图

上传一张产品图(SKU 图),SVD 会自动给产品加 360° 微旋转,适合电商详情页的小动图。

用法 3:数据集预处理

研究者用 SVD 给静态数据集加”伪时序信息”,再做下游视频模型训练,这是 SVD 在学界的重要用法。

高级玩法

玩法 1:LoRA 微调

SVD 支持 LoRA fine-tune,你只需要 20-50 张同一主体的图片,就能微调出”专属该主体”的运动模式。可以用 Hugging Face 的 peft 库快速上手。具体流程:准备数据集 → 用 SVD 的训练脚本跑 LoRA → 得到 100-200MB 的轻量级 LoRA 权重 → 推理时加载,出片就会按你训练的运动模式动。这种”小成本微调”是 SVD 比闭源工具最大的优势。

玩法 2:ControlNet 接入

社区已有项目把 ControlNet(深度图、姿态图)接入 SVD,实现”指定动作”的视频生成,大幅提升可控性;推荐看 https://github.com/levihsu/SVD-ControlNet 之类的社区项目。用 ControlNet 之后,你可以指定”人物举手”或”狗转头”,出片可控性大幅提升,在做”数字人”产品时非常关键。

玩法 3:与 ComfyUI 集成

ComfyUI 社区已经把 SVD 打包成节点,可以在可视化工作流里直接调用,不用写 Python 代码;这是最”小白友好”的 SVD 使用方式。ComfyUI 还支持把 SVD 与 Stable Diffusion(图像)、AnimateDiff(视频)、SadTalker(数字人)等节点串联,做出复杂的 AI 视频流水线。

小技巧

  1. 输入图分辨率匹配:SVD 训练时是 576×1024,输入图最好 resize 到接近比例,出片质量更稳。
  2. motion_bucket_id 调运动幅度:这个参数(0-255)控制运动剧烈程度,风景用 30-80,人物用 80-150,实验不同值找最佳。
  3. augmentation_level 调噪声:默认 0.02,过大画面会失真,过小画面会”卡住”。
  4. FP16 必开:开启半精度能省一半显存,画质损失极小。
  5. 保存好 seed:找到好结果后立刻记下 seed,后面微调 prompt 时能保持”骨架”一致。

常见问题 FAQ

Q1: Stable Video 生成视频的分辨率和时长限制?

A: 取决于 Stable Video 的版本和订阅方案。免费版通常限制 480p/720p、最长 5-10 秒;付费版可达 1080p/4K、最长 1-3 分钟。具体限制请查 https://stability.ai 文档。商用时注意分辨率要求。

Q2: Stable Video 生成视频要多久?

A: 简单 5 秒视频通常需要 1-5 分钟,复杂长视频可能需要 30 分钟-1 小时。生成时间受服务器负载影响,高峰期可能更长。

Q3: 生成的视频有水印吗?能去除吗?

A: 免费版通常有水印,付费版通常无水印。如果有水印,可以使用专业去水印工具(但可能违反服务条款)。建议直接订阅付费版去除水印。

Q4: Stable Video 的视频生成效果如何?

A: AI 视频生成在快速进步,但仍有局限:1) 人物动作连贯性可能不稳定;2) 物理规律(液体、碰撞)可能不准确;3) 长视频容易出现场景跳变。适合用于短视频、概念演示,不适合替代专业影视制作。

Q5: Stable Video 适合哪些使用场景?

A: 适合:短视频创作、营销视频、概念演示、教学辅助、社交媒体内容、产品展示。不适合:商业广告(质量要求高)、长视频(> 1 分钟)、需要专业演员/导演的项目。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. Stable Video

Stable Video 完整使用指南

Stability AI 出品的开源图生视频扩散模型,提供高分辨率、可商用的视频生成能力

评分: 8.0/10 价格: 免费/付费 厂商: Stability AI 官网: stability.ai


目录

  1. 什么是Stable Video
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

打开 Chrome 浏览器(推荐 120+ 版本)访问 Stability AI 官方产品页 https://stability.ai/video ,无需注册即可看到 Stable Video Diffusion 的功能介绍和入口按钮。本地体验路线需要 12G 显存的英伟达显卡 + Windows 10/11;没有显卡就走网页/Hugging Face 路线即可。网络要求:可正常访问 huggingface.co(部分地区需要科学上网);Stability 官方平台对所有注册用户免费开放基础额度,无需付费账号。

第 2 步:跟着做

  1. 网页端最简路线:访问 https://huggingface.co/spaces/stabilityai/stable-video-diffusion (Stable Diffusion 官方 Space),点击 “Files” 上传一张 512×512 以上的清晰静态图(建议 1024×576 横版),在 “Frames” 选 25 帧、“Motion bucket” 保持默认 127、“FPS” 设 6,点 “Generate” 按钮。
  2. 官方 Studio 路线:从 https://stability.ai 顶部导航进 “Stable Video”,用邮箱注册并登录,进入工作台后选择 “Image to Video”,上传图片后调整镜头控制滑块(摄像机平移/缩放),点 “Generate” 即可生成 4 秒视频。
  3. 等待生成:页面右侧进度条从 0% 走到 100%,普通队列约 2-5 分钟出片;视频生成完成后点右下角 “Download” 下载 MP4 文件。

第 3 步:验证

成功标志:看到 4-25 帧、约 2-4 秒、带相机平移或缩放动态的 MP4 文件,人物或物体有自然的微小位移。下一步建议:① 在 Discord 加入 Stability AI 官方频道,获取最新模型权重;② 想做更长视频可尝试 “Frame Interpolation” 帧插值,把 4 秒延长到 8-16 秒;③ 商用前阅读 Stability AI 会员协议(社区版仅供研究/非商用)。


什么是Stable Video

Stable Video Diffusion(简称 SVD)是 Stability AI 于 2023 年 11 月发布的开源视频生成模型,基于其图像生成明星产品 Stable Diffusion 2.1 扩展而来,通过引入时间维度建模,把潜在扩散模型从 2D 图像拓展到视频领域。该模型在内部构造的大型视频数据集(约 5.8 亿对带注释片段)上做了预训练,再针对高画质视频进行微调,从而实现从单张静态图像自动生成连贯短视频片段的能力。

Stable Video 提供两个版本:SVD 可输出 14 帧视频,SVD-XT 可输出 25 帧视频,分辨率均为 576×1024,帧率可在 3 到 30 FPS 之间调节。模型主要面向科研、教育、创意工具、设计和其他艺术流程,目前并未对个人用户提供消费级商用 Web 产品,因此它的目标用户以具备一定工程能力的开发者、独立研究者与中小型创意团队为主,这些人通常拥有 A100/H100 等专业 GPU 或者使用云端算力服务。Stability AI 同期也推出了 SP4D 等最新研究,把”运动学部件”概念引入视频生成,旨在让 AI 不仅会画表面,还能理解物体的运动结构,标志着这家公司在多模态视频生成方向上的持续探索。

核心功能

  1. 图像转视频(I2V) — 上传一张图片,模型根据图像内容生成 14 或 25 帧的连续短视频,适用于产品展示、风景动画、艺术作品动态化等场景。
  2. 帧率与运动强度控制 — 支持自定义 FPS(3-30)和 motion_bucket_id 参数(0-255),用户可以精细调节镜头运动幅度,从几乎静止到大幅推拉都可实现。
  3. 多视角生成 — 模型支持多视角一致性合成,适合为 3D 资产预渲染参考视频。
  4. 帧插值能力 — 可在已生成的视频帧之间进行插值,延长视频长度同时保持流畅度。
  5. LoRA 摄像机控制 — 通过 LoRA 微调,可以控制摄像机轨迹(推、拉、摇、移),适合电影感运镜生成。

如何使用

注册和入门

Stable Video 目前未提供面向大众的注册式 Web 应用,主要通过 Hugging Face 上的模型权重和 GitHub 上的代码仓库分发。开发者需要在 Hugging Face 同意研究许可条款后下载 SVD/SVD-XT 模型权重,获取方式包括官方 stability-ai/generative-models 仓库以及镜像仓库(如国内 GitCode 镜像)。Stability AI 同时开放了面向企业的 API 与平台合作伙伴计划,普通用户如想在线体验,可访问 Stability AI 官网 stability.ai 注册开发者账号并申请 API key,官方也提供图像生成 API、Stable Assistant 等产品供普通创作者快速体验。

基础操作流程

开发者本地部署的基本流程包括:首先使用 git 克隆 generative-models 仓库并切换到 SVD 分支,创建 Python 虚拟环境并安装 PyTorch(建议 2.0 以上)、diffusers、transformers、accelerate、safetensors 等依赖库;随后运行 huggingface-cli login 并下载 svd.safetensors 或 svd-xt.safetensors 权重到本地;之后通过 StableVideoDiffusionPipeline 加载模型,设置 torch_dtype=torch.float16 并将 pipeline 转移到 GPU;最简调用方式如下:加载输入图像并 resize 到 1024×576,设置 num_frames=14、fps=7、motion_bucket_id=127、noise_aug_strength=0.02,推理完成后用 export_to_video 函数导出 MP4。完整流程从环境配置到首次出片,在一张 A100(80GB)上约需 1.5-2 小时。

高级技巧

显存优化是 Stable Video 的核心使用技巧。对于消费级 24GB 显存的 RTX 4090,可以启用 pipe.unet.enable_gradient_checkpointing() 减少约 45% 显存占用,同时将 decode_chunk_size 设为 1、按帧解码避免一次性 OOM。生成速度优化方面,使用 torch.float16 + bfloat16 混合精度推理,配合 model.fp16.safetensors 权重,可将 A100 上的 4 秒视频生成时间从 102 秒压缩到 62 秒。针对人物肖像,建议 motion_bucket_id 控制在 40-60 以避免面部扭曲;风景照则推荐 80-100 获得自然运镜;商业项目应额外叠加 imwatermark 库嵌入 ‘SVD-GEN’ 水印,符合 Stability AI 的合规使用要求。

价格方案

方案价格核心权益
开源研究版免费下载 SVD/SVD-XT 权重(需同意非商用研究条款),本地自部署,商用受限
Stability AI 开发者 API按量计费通过 stability.ai 平台调用图像与视频生成 API,起步价待官方公布,适合应用集成
企业商业授权需联系销售用于商业产品的重分发、修改权、二次分发 API 服务,需书面授权
云端算力自部署自费通过 AWS、RunPod、AutoDL 等平台租用 GPU(如 A100 约 15-25 元/小时),自行部署模型

竞品对比

维度Stable VideoRunway Gen-3可灵(Kling)
价格开源免费/企业授权订阅约 95 美元/月免费额度+订阅约 60 元/月
核心优势开源可定制、隐私可控一站式 Web 创作、多镜头叙事中文理解强、物理模拟细腻
适合人群开发者、科研团队影视工作室、广告公司短视频创作者、跨境营销

优缺点

优点:

  • 完全开源,模型权重和训练代码可在 Hugging Face 与 GitHub 自由下载,适合二次研发
  • 时间一致性强,在风景、产品图等场景生成稳定,不易出现闪烁
  • 可高度定制,支持 LoRA 微调、ControlNet 拓展、潜在空间编辑等高级玩法
  • 社区生态活跃,WebUI(如 ComfyUI、SD WebUI Forge)支持完善

缺点:

  • 不直接生成文字,无法生成慢动作或纯静态视频,角色人脸生成存在一定失真风险
  • 需要较强 GPU 算力,24GB 显存以下部署困难,学习曲线较陡
  • 模型权重仅限研究使用,商业授权需额外联系,合规成本较高
  • 只能从图像生成视频,不支持纯文本描述驱动,创作门槛高于 Sora 等直生文生视频

常见问题

Q1: Stable Video 可以在普通笔记本电脑上跑吗? A1: 不建议。模型权重约 9.5GB,推理至少需要 8GB 显存但只能勉强出片,推荐使用 RTX 4090(24GB)或云端 A100。如果只是轻度体验,可以关注 Stability AI 官网即将上线的 Web 平台。

Q2: 生成的视频可以商用吗? A2: 模型权重本身采用 Stability AI 专有研究许可,商业用途(包括二次分发、提供 API 服务)需获得书面授权。个人非商业项目可免费使用,商业产品集成建议直接洽谈 API 授权或转向 Runway 等托管服务。

Q3: SVD 和 SVD-XT 怎么选? A3: SVD 输出 14 帧,适合快速预览、社交媒体短循环动图;SVD-XT 输出 25 帧,适合更长片段。两者的硬件需求、显存占用基本一致,推荐先用 SVD 调试参数,满意后再切换到 SVD-XT 出成片。

Q4: 模型会生成违规或真人脸内容吗? A4: Stability AI 在模型权重中默认嵌入了 imwatermark 不可见水印(‘SVD-GEN’),便于溯源追踪。官方同时建议商业部署时叠加内容过滤(如 Amazon Rekognition、Google Cloud Vision API)用于合规审查。

Q5: 国内访问 Hugging Face 困难,有没有镜像? A5: 可以使用国内镜像如 GitCode 的 hf_mirrors 仓库,搜索”stable-video-diffusion-img2vid”即可下载完整模型权重;也可在 ModelScope(魔搭社区)查找同名模型。

总结建议

Stable Video Diffusion 是目前较为成熟的开源图生视频方案之一,特别适合有工程能力、追求可定制与隐私可控的开发者与中小团队。建议三类用户重点关注:一是具备 GPU 集群的研究者,可用其做视频扩散模型的二次训练或蒸馏;二是独立设计师与艺术工作者,可把作品集静态图动态化,用作作品集展示或社媒封面;三是 AIGC 应用开发者,可基于 SVD 微调出垂直行业版本(如电商产品展示、风光延时)。如果只是普通创作者想要”输入文字就出片”,Stable Video 不是最优解,建议直接使用 Runway、可灵、即梦等托管平台;但如果希望构建自有视频生成能力、避免数据外泄,Stable Video 仍是当前开源生态中难得的成熟选项。

同分类推荐

AI视频生成 分类下的其他工具