使用 STG、CAPTION 和 CLIP EXTEND 工作流程将 LTX 图像转换为视频v6.0

在 v6.0 版本中，通过使用 STG、CAPTION 和 CLIP EXTEND 工作流程，可以将 LTX 图像高效地转换为动态视频。这一流程首先利用 STG 模块生成初始帧的流畅过渡，为图像赋予基础的动态效果；接着，通过 CAPTION 模块添加图像描述或字幕内容，进一步丰富视频的表达层次；最后，使用 CLIP EXTEND 模块扩展视频片段，增强视频的连贯性和完整性。这一工作流程不仅能够保留原始 LTX 图像的核心风格，还能通过多个模块的协作实现更自然、更具表现力的视频转换效果，为用户创造高质量的视觉体验。

工作流程：图像 -> Florence 的自动字幕（提示） -> 使用 STG 将 LTX 图像转换为视频

在不到 1 分钟的时间内创建长达 10 秒的剪辑。已确认可在 8GB VRam 上运行。

Teacache 版本已添加到“实验”选项卡，可将处理时间缩短约 40%，需要测试对质量的影响。（GGUF 和 GGUF+TiledVAE+ClearVram 版本）

最后更新：2025 年 1 月 20 日（MaskedMotionBlur 工作流程已使用 Teacache 更新）

V6.0：GGUF/TiledVAE 版本和蒙版运动模糊版本

使用 GGUF 模型更新了工作流程，可节省 Vram 并运行速度更快。

有一个标准版本，它仅使用GGUF模型，还有一个GGUF+TiledVae+Clear Vram版本，这进一步降低了 Vram 要求。测试了更大的 GGUF 模型 (Q8)，分辨率为 1024、161 帧和 32 步，GGUF 版本的 Vram 使用峰值为 14gb，而 TiledVae+ClearVram 版本的峰值为 7gb。较小的 GGUF 模型可能会进一步降低要求。

GGUF 模型、VAE 和 Textencoder 可以在这里下载：

（模型&VAE）：https ://huggingface.co/calcuis/ltxv-gguf/tree/main

（反棋盘式 Vae）：https://huggingface.co/spacepxl/ltx-video-0.9-vae-finetune/tree/main

（剪辑文本编码器）：https ://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

您可以选择 16gb+ 的 GGUF 版本和 Vram 小于 16gb 的 TiledVae+ClearVram。

蒙版运动模糊版本：由于 LTX 容易出现运动模糊，因此在工作流程中添加了一个额外的组，允许在输入图像上设置蒙版，将运动模糊应用于蒙版，以触发特定运动。（听起来比实际效果更好，但在某些情况下很有用）。包括 GGUF 和 GGUF+TiledVAE+ClearVram 版本。

V5.0：支持新的LTX 模型 0.9.1。

包括针对 LowVram 的附加工作流程（在 VAE 之前清除 Vram）
添加了工作流程来比较 LTX Model 0.9.1 与 LTX Model 0.9

（模型发布时 V4 无法与 0.9.1 兼容（因此创建了 v5），这种情况已经随着舒适度和节点的更新而改变，现在您可以将两个模型（0.9 和 0.9.1）与 V4 一起使用，也可以与 V5 一起使用。两者都有不同的自定义节点来管理模型，除此之外，两个版本是相同的。如果您遇到内存问题/处理时间过长，请参阅最后的提示）

V4.0：引入视频/剪辑扩展：

根据上一个剪辑的最后一帧延长剪辑。您可以将剪辑延长约 2-3 次，直到质量开始下降，请参阅工作流程说明中的更多详细信息。

添加了使用您自己的提示并绕过佛罗伦萨标题的功能。

V3.0： 引入STG（用于增强视频扩散采样的时空跳过引导）。

包含简单和增强型工作流程。增强版具有额外的功能来升级输入图像，在某些情况下可能会有所帮助。建议使用简单版。

用驱动视频尺寸的“ Dimension ”节点替换了高度/宽度节点（默认值 = 768。增加到 1024 将提高分辨率，但可能会减少运动，还会使用更多的 VRAM 和时间）。与以前的版本不同，图像不会被裁剪。
包含代表STG设置的新节点“ LTX Apply Perturbed Attention ” （有关值/限制的更多详细信息，请参阅工作流中的注释）。
增强版有一个额外的开关，用于对输入图像进行放大（true）或不放大（false）。此外还有一个比例值（使用 1 或 2）来定义注入前图像的大小，这有点像超级采样。如前所述，在大多数情况下不需要。

专业提示：除了使用大约 24 的CRF值来驱动运动之外，还可以将黄色视频组合节点中的帧速率从 1 增加到 4+，以便在结果过于静态时触发进一步的运动。

节点“修改 LTX 模型”将在会话内更改模型，如果您切换到另一个工作流，请确保在 comfyui 中点击“释放模型和节点缓存”以避免干扰。如果您绕过此节点 (strg-B)，则可以执行 Text2Video。

V2.0 ComfyUI 图像转视频工作流程，采用Florence2 Autocaption (v2.0)

此更新的工作流程集成了 Florence2 以实现自动字幕，取代了 1.0 版中的 BLIP，并包含改进的控件，用于针对特定视频输出定制提示。

v2.0 中的新功能

Florence2 节点集成
字幕定制
- 新的文本节点允许用“视频”替换字幕中的“照片”或“图像”等术语，以使提示与视频生成更加紧密地结合在一起。

V1.0：通过压缩增强运动

为了减轻 LTX 视频模型中的“无运动”伪影：

使用 CRF 为 20-30 的 H.264 压缩将输入图像传递到FFmpeg 。
- 此步骤引入了微妙的人工制品，帮助模型将输入锁定为类似视频的内容。
- 可以在黄色的“视频组合”节点（左下方的 GUI）中调整 CRF 值。
- 较高的值 (25-30) 可增强运动效果；较低的值 (~20) 可保留更多的视觉保真度。

自动字幕增强功能

前置文本和后置文本的文本节点允许手动添加字幕。
- 使用这些来描述所需的效果，例如相机移动。

可调输入设置

宽度/高度和比例：定义采样器的图像分辨率（例如 768×512）。比例因子 2 可实现超级采样以获得更高质量的输出。使用比例值 1 或 2。（在 V3 中更改为维度节点）

专业提示

运动优化：如果输出感觉静态，则逐步增加 CRF 和帧速率值或调整前/后文本节点以强调与运动相关的提示。
微调字幕：试验 Florence2 的字幕细节级别，获得细致入微的视频提示。
如果遇到内存问题（OOM 或极端处理时间），请尝试以下操作：
- 使用 V5 的 LowVram 版本
- 使用 GGUF 版本
- 在 comfyui 中按“免费模型和节点缓存”
- 将 comfyui 的启动参数设置为 --lowvram --disable-smart-memory
  - 查看 comfyui 文件夹中的文件：“run_nvidia_gpu.bat” 编辑行：python.exe -s ComfyUI\main.py --lowvram --disable-smart-memory
- 关闭浏览器中的硬件加速

作品预览

资源下载

下载价格免费

使用 STG、CAPTION 和 CLIP EXTEND 工作流程将 LTX 图像转换为视频v6.0

专业提示

作品预览

升级VIP

夜间模式

返回顶部

使用 STG、CAPTION 和 CLIP EXTEND 工作流程将 LTX 图像转换为视频v6.0

专业提示

作品预览

猜你喜欢

升级VIP

夜间模式

返回顶部