所有分类
  • 所有分类
  • Civitai
  • LoRA

使用 STG、CAPTION 和 CLIP EXTEND 工作流程将 LTX 图像转换为视频v6.0

在 v6.0 版本中,通过使用 STG、CAPTION 和 CLIP EXTEND 工作流程,可以将 LTX 图像高效地转换为动态视频。这一流程首先利用 STG 模块生成初始帧的流畅过渡,为图像赋予基础的动态效果;接着,通过 CAPTION 模块添加图像描述或字幕内容,进一步丰富视频的表达层次;最后,使用 CLIP EXTEND 模块扩展视频片段,增强视频的连贯性和完整性。这一工作流程不仅能够保留原始 LTX 图像的核心风格,还能通过多个模块的协作实现更自然、更具表现力的视频转换效果,为用户创造高质量的视觉体验。

工作流程:图像 -> Florence 的自动字幕(提示) -> 使用 STG 将 LTX 图像转换为视频

  • 在不到 1 分钟的时间内创建长达 10 秒的剪辑。已确认可在 8GB VRam 上运行。

Teacache 版本已添加到“实验”选项卡,可将处理时间缩短约 40%,需要测试对质量的影响。(GGUF 和 GGUF+TiledVAE+ClearVram 版本)

最后更新:2025 年 1 月 20 日(MaskedMotionBlur 工作流程已使用 Teacache 更新)

V6.0:GGUF/TiledVAE 版本和蒙版运动模糊版本

使用 GGUF 模型更新了工作流程,可节省 Vram 并运行速度更快。

有一个标准版本,它仅使用GGUF模型,还有一个GGUF+TiledVae+Clear Vram版本,这进一步降低了 Vram 要求。测试了更大的 GGUF 模型 (Q8),分辨率为 1024、161 帧和 32 步,GGUF 版本的 Vram 使用峰值为 14gb,而 TiledVae+ClearVram 版本的峰值为 7gb。较小的 GGUF 模型可能会进一步降低要求。

GGUF 模型、VAE 和 Textencoder 可以在这里下载:

(模型&VAE):https ://huggingface.co/calcuis/ltxv-gguf/tree/main

(反棋盘式 Vae):https://huggingface.co/spacepxl/ltx-video-0.9-vae-finetune/tree/main

(剪辑文本编码器):https ://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

您可以选择 16gb+ 的 GGUF 版本和 Vram 小于 16gb 的 TiledVae+ClearVram。

蒙版运动模糊版本:由于 LTX 容易出现运动模糊,因此在工作流程中添加了一个额外的组,允许在输入图像上设置蒙版,将运动模糊应用于蒙版,以触发特定运动。(听起来比实际效果更好,但在某些情况下很有用)。包括 GGUF 和 GGUF+TiledVAE+ClearVram 版本。

V5.0:支持新的LTX 模型 0.9.1。

  • 包括针对 LowVram 的附加工作流程(在 VAE 之前清除 Vram)
  • 添加了工作流程来比较 LTX Model 0.9.1 与 LTX Model 0.9

(模型发布时 V4 无法与 0.9.1 兼容(因此创建了 v5),这种情况已经随着舒适度和节点的更新而改变,现在您可以将两个模型(0.9 和 0.9.1)与 V4 一起使用,也可以与 V5 一起使用。两者都有不同的自定义节点来管理模型,除此之外,两个版本是相同的。如果您遇到内存问题/处理时间过长,请参阅最后的提示)

V4.0:引入视频/剪辑扩展:

根据上一个剪辑的最后一帧延长剪辑。您可以将剪辑延长约 2-3 次,直到质量开始下降,请参阅工作流程说明中的更多详细信息。

添加了使用您自己的提示并绕过佛罗伦萨标题的功能。

V3.0: 引入STG(用于增强视频扩散采样的时空跳过引导)。

包含简单增强型工作流程。增强版具有额外的功能来升级输入图像,在某些情况下可能会有所帮助。建议使用简单版。

  • 用驱动视频尺寸的“ Dimension ”节点替换了高度/宽度节点(默认值 = 768。增加到 1024 将提高分辨率,但可能会减少运动,还会使用更多的 VRAM 和时间)。与以前的版本不同,图像不会被裁剪。
  • 包含代表STG设置的新节点“ LTX Apply Perturbed Attention ” (有关值/限制的更多详细信息,请参阅工作流中的注释)。
  • 增强版有一个额外的开关,用于对输入图像进行放大(true)或不放大(false)。此外还有一个比例值(使用 1 或 2)来定义注入前图像的大小,这有点像超级采样。如前所述,在大多数情况下不需要。

专业提示:除了使用大约 24 的CRF值来驱动运动之外,还可以将黄色视频组合节点中的帧速率从 1 增加到 4+,以便在结果过于静态时触发进一步的运动。

节点“修改 LTX 模型”将在会话内更改模型,如果您切换到另一个工作流,请确保在 comfyui 中点击“释放模型和节点缓存”以避免干扰。如果您绕过此节点 (strg-B),则可以执行 Text2Video。

V2.0 ComfyUI 图像转视频工作流程,采用Florence2 Autocaption (v2.0)

此更新的工作流程集成了 Florence2 以实现自动字幕,取代了 1.0 版中的 BLIP,并包含改进的控件,用于针对特定视频输出定制提示。

v2.0 中的新功能

  1. Florence2 节点集成
  2. 字幕定制
    • 新的文本节点允许用“视频”替换字幕中的“照片”或“图像”等术语,以使提示与视频生成更加紧密地结合在一起。

V1.0:通过压缩增强运动

为了减轻 LTX 视频模型中的“无运动”伪影:

  • 使用 CRF 为 20-30 的 H.264 压缩将输入图像传递到FFmpeg 。
    • 此步骤引入了微妙的人工制品,帮助模型将输入锁定为类似视频的内容。
    • 可以在黄色的“视频组合”节点(左下方的 GUI)中调整 CRF 值。
    • 较高的值 (25-30) 可增强运动效果;较低的值 (~20) 可保留更多的视觉保真度。

自动字幕增强功能

  • 前置文本后置文本的文本节点允许手动添加字幕。
    • 使用这些来描述所需的效果,例如相机移动。

可调输入设置

  • 宽度/高度和比例:定义采样器的图像分辨率(例如 768×512)。比例因子 2 可实现超级采样以获得更高质量的输出。使用比例值 1 或 2。(在 V3 中更改为维度节点)

专业提示

  • 运动优化:如果输出感觉静态,则逐步增加 CRF 和帧速率值或调整前/后文本节点以强调与运动相关的提示。
  • 微调字幕:试验 Florence2 的字幕细节级别,获得细致入微的视频提示。
  • 如果遇到内存问题(OOM 或极端处理时间),请尝试以下操作:
    • 使用 V5 的 LowVram 版本
    • 使用 GGUF 版本
    • 在 comfyui 中按“免费模型和节点缓存”
    • 将 comfyui 的启动参数设置为 --lowvram --disable-smart-memory
      • 查看 comfyui 文件夹中的文件:“run_nvidia_gpu.bat” 编辑行:python.exe -s ComfyUI\main.py --lowvram --disable-smart-memory
    • 关闭浏览器中的硬件加速

作品预览

资源下载
下载价格免费
0
显示验证码
没有账号?注册  忘记密码?