vita-epfl

vita-epfl / Stable-Video-Infinity

#11
1,699134+45 todayPython

[ICLR 26] Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

💡 Use Cases

这个项目最适合需要生成或扩展长时间、高一致性、内容连贯视频的场景,尤其擅长叙事、口型同步和动态内容制作。

生成超长叙事视频

Problem: 开发者想用AI生成几分钟甚至十几分钟的连贯叙事视频,但现有模型只能生成几秒或几十秒的片段,拼接后会出现内容跳跃、风格不一致的问题。

Solution: 使用SVI的“错误回收”技术,可以生成无限长度的视频,保持内容连贯性和视觉一致性,如README中提到的8分钟《猫和老鼠》视频。

Example: 为儿童教育内容制作一个5分钟的动画故事,讲述小动物探险,角色和场景在整个视频中保持稳定。

制作口型同步视频

Problem: 开发者需要根据音频(如播客、旁白)生成人物或卡通角色说话的视频,要求口型与音频精准同步。

Solution: 使用SVI-Talk模块,这是一个音频驱动的说话人脸生成功能,可以基于输入的音频生成对应口型变化的长时间视频。

Example: 将一段10分钟的播客音频,转换为虚拟主播讲解的视频,用于知识科普频道。

扩展现有视频时长

Problem: 开发者有一段短视频(如产品演示、风景片段),希望将其无缝延长,补充更多内容,而不是简单循环播放。

Solution: 利用SVI的视频扩展能力,以原视频为起点,生成风格和内容连贯的后续画面,实现视频时长的自然增长。

Example: 将一段15秒的产品特写视频,扩展成1分钟的完整使用场景展示视频。

创建多镜头动态内容

Problem: 开发者想生成包含多个场景切换、动作丰富的动态视频(如舞蹈、运动),但普通视频生成模型难以处理复杂的镜头运动和长时间动态。

Solution: 采用SVI 2.0 Pro,结合社区工作流(如ComfyUI),可以生成长达40秒的高动态视频且避免色彩退化,适合舞蹈生成等场景。

Example: 生成一段30秒的卡通角色舞蹈视频,包含全身动作和镜头推拉摇移。

📊 Project Info

Language
Python
Stars
1,699
Forks
134
Today
+45
Ranking
#11
Collection
Overall
Trending Date
February 1, 2026

🏷️ Topics

视频扩散模型错误回收长视频生成视频合成无限长度社区驱动视频创作者AI研究者

📸 Screenshots

Stable-Video-Infinity screenshot 1Stable-Video-Infinity screenshot 2Stable-Video-Infinity screenshot 3