跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://dripart-mintlify-e28287af.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Kandinsky 5.0 是由 Kandinsky Lab 开发的视频和图像生成扩散模型系列。Kandinsky 5.0 T2V Lite 是一个轻量级的 2B 参数模型,在开源视频生成模型中名列前茅,能够生成长达 10 秒的视频。
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

概述

Kandinsky 5.0 使用带有 Flow Matching 的潜在扩散管道,具有以下特点:
  • 扩散 Transformer (DiT): 主要生成骨干网络,通过交叉注意力连接文本嵌入
  • Qwen2.5-VL 和 CLIP: 提供高质量的文本嵌入
  • HunyuanVideo 3D VAE: 将视频编码和解码到潜在空间
该模型系列包含多个针对不同用例优化的变体:
  • SFT 模型: 最高生成质量
  • CFG-distilled: 推理速度提升 2 倍
  • Diffusion-distilled: 速度提升 6 倍,质量损失极小(16 步)
  • Pretrain 模型: 专为微调设计
所有模型均提供 5 秒和 10 秒视频生成版本。

模型变体

模型视频时长NFE延迟 (H100)
Kandinsky 5.0 T2V Lite SFT5s / 10s100139s / 224s
Kandinsky 5.0 T2V Lite no-CFG5s / 10s5077s / 124s
Kandinsky 5.0 T2V Lite distill5s / 10s1635s / 61s
Kandinsky 5.0 I2V Lite5s100673s

文生视频工作流

1. 下载工作流文件

请更新你的 ComfyUI 到最新版本,并通过菜单 工作流 -> 浏览模板 -> 视频 找到 “Kandinsky 5.0 T2V” 以加载工作流。

下载 JSON 格式工作流

2. 手动下载模型

Text Encoders Diffusion Model VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_t2v_sft_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

图生视频工作流

1. 下载工作流文件

请更新你的 ComfyUI 到最新版本,并通过菜单 工作流 -> 浏览模板 -> 视频 找到 “Kandinsky 5.0 I2V” 以加载工作流。

下载 JSON 格式工作流

2. 手动下载模型

Text Encoders Diffusion Model VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_i2v_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

资源