vita-epfl / Stable-Video-Infinity

#11

1,699134+45 todayPython

View on GitHub

[ICLR 26] Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

💡 Use Cases

这个项目最适合需要生成或扩展长时间、高一致性、内容连贯视频的场景，尤其擅长叙事、口型同步和动态内容制作。

生成超长叙事视频

Problem: 开发者想用AI生成几分钟甚至十几分钟的连贯叙事视频，但现有模型只能生成几秒或几十秒的片段，拼接后会出现内容跳跃、风格不一致的问题。

Solution: 使用SVI的“错误回收”技术，可以生成无限长度的视频，保持内容连贯性和视觉一致性，如README中提到的8分钟《猫和老鼠》视频。

Example: 为儿童教育内容制作一个5分钟的动画故事，讲述小动物探险，角色和场景在整个视频中保持稳定。

制作口型同步视频

Problem: 开发者需要根据音频（如播客、旁白）生成人物或卡通角色说话的视频，要求口型与音频精准同步。

Solution: 使用SVI-Talk模块，这是一个音频驱动的说话人脸生成功能，可以基于输入的音频生成对应口型变化的长时间视频。

Example: 将一段10分钟的播客音频，转换为虚拟主播讲解的视频，用于知识科普频道。

扩展现有视频时长

Problem: 开发者有一段短视频（如产品演示、风景片段），希望将其无缝延长，补充更多内容，而不是简单循环播放。

Solution: 利用SVI的视频扩展能力，以原视频为起点，生成风格和内容连贯的后续画面，实现视频时长的自然增长。

Example: 将一段15秒的产品特写视频，扩展成1分钟的完整使用场景展示视频。

创建多镜头动态内容

Problem: 开发者想生成包含多个场景切换、动作丰富的动态视频（如舞蹈、运动），但普通视频生成模型难以处理复杂的镜头运动和长时间动态。

Solution: 采用SVI 2.0 Pro，结合社区工作流（如ComfyUI），可以生成长达40秒的高动态视频且避免色彩退化，适合舞蹈生成等场景。

Example: 生成一段30秒的卡通角色舞蹈视频，包含全身动作和镜头推拉摇移。

📊 Project Info

Language: Python
Stars: ⭐ 1,699
Forks: 134
Today: +45
Ranking: #11
Collection: Overall
Trending Date: February 1, 2026

🏷️ Topics

视频扩散模型错误回收长视频生成视频合成无限长度社区驱动视频创作者AI研究者

📸 Screenshots

5分钟上手 Stable Video Infinity (SVI)

本指南将帮助你在5分钟内完成SVI环境配置，并生成你的第一段AI视频

🖥️ OS

LinuxWindows (WSL2)macOS

⚙️ Runtime

Python>=3.8

CUDA>=11.8

🔧 Tools

Git— 克隆项目代码

📝 Steps

克隆项目并安装依赖

获取SVI源代码并安装必要的Python包

克隆主仓库

$ git clone https://github.com/vita-epfl/Stable-Video-Infinity.git

进入项目目录

$ cd Stable-Video-Infinity

安装Python依赖

$ pip install -r requirements.txt

✓Expected: 所有依赖包安装成功，无错误信息

💡建议使用Python虚拟环境，如：python -m venv svi_env && source svi_env/bin/activate

下载预训练模型

下载SVI 2.0 Pro模型（基于Wan 2.2）

切换到Wan 2.2分支

$ git checkout sviwan22

下载模型权重

$ python scripts/download_model.py --model svi_2.0_pro

✓Expected: 模型文件下载完成，保存在models/目录下

💡模型文件较大（约10GB），请确保有足够的磁盘空间和稳定的网络连接

生成第一段视频

使用简单提示词生成10秒的测试视频

生成日落山脉视频

$ python generate.py --prompt "A beautiful sunset over mountains" --duration 10 --output test_video.mp4

✓Expected: 视频生成进度显示，最终生成test_video.mp4文件

💡首次生成需要加载模型，可能需要1-2分钟。建议从简单提示词开始

✅ 验证成功

检查是否成功生成了视频文件

✓test_video.mp4文件存在且大小正常（>10MB）
✓视频可以正常播放，无错误提示
✓控制台显示生成完成的确认信息

⚡ Quick Tips

配置使用不同seed值生成不同视频片段，这对长视频质量至关重要

性能建议使用480p分辨率（854x480）以获得最佳性能

调试如果遇到CUDA内存不足，可尝试减小batch size或使用--low-vram参数

其他查看社区工作流教程获取高级用法（如口型同步、舞蹈生成）

🔍 Troubleshooting

❓ CUDA out of memory错误

→ 减小batch size：添加--batch-size 1参数，或使用--low-vram模式

❓ 视频生成速度慢

→ 确保使用GPU运行，检查CUDA版本兼容性，使用480p分辨率

❓ 视频闪烁或质量下降

→ 确保使用正确的SVI 2.0工作流，为不同片段使用不同seed值

❓ 模型下载失败

→ 手动从HuggingFace下载模型并放入models/目录，或使用国内镜像源

🎯 Next Steps

尝试生成更长视频

增加--duration参数生成30秒以上的视频，观察错误回收机制效果

探索社区工作流

查看项目pinned issue中的ComfyUI工作流，实现口型同步等高级功能

在线体验SVI

访问Poe平台直接使用SVI-2.0 Pro，无需本地部署

加入社区交流

分享你的生成结果，获取更多创意提示和优化建议