Using WAN Video Self-Forcing and LightX2V with ComfyUI  「Self Forcing と LightX2V で安定化と高速化を実現させる」

24/07/2025

AI ComfyUI WAN

in English

There is a technology called Self-Forcing that stabilizes the generated video , and a technology called LightX2V that generates it at high speed . A LoRA version that combines these has been released. For various reasons, I cannot provide a link, but please search for Self-Forcing.    

This makes it possible to generate videos with fewer steps and less CFG than before.

When generating AI, the larger the number of steps and CFG, the longer the generation time will be, so if these values can be kept low, you can expect to improve the generation speed.

This time we will measure the difference between using nothing and using lightx2v_I2V_14B_480p_cfg_step_distill_rank128_bf16.safetensors.


1. How to use and measurement conditions

Add a WanVideo Lora Select node as shown below and connect it to the WanVideo Model Loader node.


The workflow we will use is the one we built in the previous article. Clicking on this workflow image will display the image saved in Google Drive, so you can download it from there and drag and drop it into ComfyUI to reproduce the workflow. If the custom node WanVideoWrapper has not been installed, please install it by referring to the previous article .


The measurement conditions are as follows.


Model : WAN21_I2V_14B_480p_Q5_K_M.gguf

Text Encoder : umt5_xxl_fp8_e4m3fn_scaled.safetensors

Clip Vision : clip_vision_h.safetensors

VAE : WAN21_VAE_bf16.safetensors

Block Swap = 15

Sage Attention Yes

Video duration: 2 seconds


Use this 480x848 image. The prompt is "a woman wearing a princess dress outfit dancing hard, step quickly and jump around."


The PC environment used for the measurements is as follows:

M/B: MPG B550 GAMING PLUS (note that the slot is PCIE4.0)

CPU : Ryzen7 5700X

GPU : RTX5060ti 16GB

RAM : DDR4 3200 64GB (32GBx2)


2. Measurement


In this measurement, set the low_mem_load item in WanVideo Lora Select to true. It seems that it is better to set it to true if the installed memory is small. It seems that the speed will be slower by that amount, but I have not verified it.

Here are the measurement results.


When not to use LoRA

steps = 20

CFG = 6.00

Shift = 8.00

Scheduler = unipc

Memory usage: 10.406 GB

Generated in: 568.36 seconds


When using LoRA

steps = 4

CFG = 1.00

Shift = 8.00

scheduler = lcm

Memory used: 10.281 GB

Build time: 73.80 seconds


When using Self Forcing and LightX2V, the number of steps and CFG can be reduced, which certainly reduces the time significantly. However, compared to when they are not used, the movement of the video is suppressed. It is almost like a different video.

If you accept that the videos that appear are something completely different and think of them as more stable, I think it's not a bad choice.


 


日本語(in Japanese)

生成動画を安定させる Self Focing という技術と、高速で生成する LightX2V という技術があります。これらを組み合わせて LoRA 化したものが公開されています。諸事情によりリンク先は貼れませんが、Self-Forcing で検索してみてください。

これにより従来よりも低ステップ数、低CFGで動画生成できるとのこと。

AI生成においてステップ数とCFGは、大きくなればなるほど生成時間が延びるため、それらの数値を低く抑えられれば生成速度の向上が期待できます。

今回は何も使わなかった場合と lightx2v_I2V_14B_480p_cfg_step_distill_rank128_bf16.safetensors を使用した場合の差を計測します。


1.使い方と計測条件

以下のように WanVideo Lora Select ノードを追加し、 WanVideo Model Loader ノードに接続します。


使用するワークフローは以前の記事で構築したこちらになります。このワークフロー画像をクリックするとGoogleドライブに保存された画像が表示されるので、そこからダウンロードしてComfyUIにドラッグ&ドロップすればワークフローが再現できます。カスタムノード WanVideoWrapper が導入されていない場合は、以前の記事を参考にインストールしてください。


計測条件は以下となります。


Model : WAN21_I2V_14B_480p_Q5_K_M.gguf

Text Encoder : umt5_xxl_fp8_e4m3fn_scaled.safetensors

Clip Vision : clip_vision_h.safetensors

VAE : WAN21_VAE_bf16.safetensors

Block Swap = 15

Sage Attention あり

動画時間 : 2秒


画像は 480x848 のこちらを使用します。プロンプトは "a woman wearing a princess dress outfit dancing hard, step quickly and jump around." です。


また、計測時のPC環境は以下となります。

M/B: MPG B550 GAMING PLUS (スロットが PCIE4.0 な点に注意)

CPU : Ryzen7 5700X

GPU : RTX5060ti 16GB

RAM : DDR4 3200 64GB (32GBx2)


2. 計測


今回の計測では WanVideo Lora Select の low_mem_load の項目を true にします。搭載メモリが少ない場合には true にしたほうが良いようです。その分速度は遅くなりそうですが検証していません。

それでは計測結果です。


LoRA を使用しない場合

steps = 20

CFG = 6.00

Shift = 8.00

Scheduler = unipc

メモリ使用量:10.406 GB

生成時間:568.36 秒


LoRA 使用時

steps = 4

CFG = 1.00

Shift = 8.00

scheduler = lcm

使用メモリ量:10.281 GB

生成時間:73.80 秒


Self Forcing と LightX2V を使用する場合、設定するステップ数やCFGを小さくすることができるため、確かに大幅な時間削減を実現することができました。ただし使わなかった場合と比べると動画の動きは抑制されていることが分かります。もはや別動画と言っていいでしょう。

出てくる動画は別物として割り切って、むしろ安定感が増したと考えれば悪くない選択肢ではないかと思います。


Ko-fi

Major Contents

ブログ アーカイブ

Contact us

名前

メール *

メッセージ *

QooQ