in English
There is a technology called Enhance A Video that improves the consistency and stability of your videos.
Enhance-A-Video: Better Generated Video for Free
Enhance-A-Video: Better Generated Video for Free
Let's use ComfyUI to see the difference this has on the video generated by the WAN.
1. How to use and measurement conditions
Add a WanVideo Enhance-A-Video node and connect it to the WanVideo Sampler node as shown below.
The workflow uses the basic form we built previously. Clicking on this workflow image will bring up an image saved on Google Drive, from which you can download it and drag and drop it into ComfyUI to reproduce the workflow. If you haven't installed the custom node WanVideoWrapper yet, please install it by referring to the previous article .
The measurement conditions are as follows.
Model : WAN21_BothI2V_14B_FastMix_Q4_K_M.gguf
Text Encoder : umt5_xxl_fp8_e4m3fn_scaled.safetensors
Clip Vision : clip_vision_h.safetensors
VAE : WAN21_VAE_bf16.safetensors
steps = 4, CFG = 1.0, shift = 8.0
Block Swap = 15
Video duration: 4 seconds
*The model is a merger of LoRA and other technologies which speed up generation, and can be downloaded from here.

Zuntan/Wan21-FastMix · Hugging Face
undefined
Use this 480x848 image. The prompt is "a woman wearing a princess dress outfit dancing hard, step quickly and jump around."
The PC environment used during the measurement is as follows:
M/B: MPG B550 GAMING PLUS (note that the slot is PCIE4.0)
CPU : Ryzen7 5700X
GPU : RTX5060ti 16GB
RAM : DDR4 3200 64GB (32GBx2)
2. Measurement
We also measured the difference between using and not using the WanVideo Enhance-A-Video node, and between setting the end_percent parameter to 1.00 and 0.00 . We also included the results when using Sage Attention, which increases generation speed at the expense of stability.
The measurement results and generated videos are as follows. The order of the videos is the same as in the table.
spda
Sage Attention
You can see that the changes to the face are suppressed when Enhance-A is used. Also, the generation time is slightly shorter.
Changing the value of end_percent from 1.00 to 0.00 appears to have no effect on the results, but there is a slight improvement in memory usage and generation time.
I also performed measurements with Sage Attention, which was said to sacrifice stability, but when comparing the generated videos, I couldn't tell the difference from spda. This may change if you increase the width and height or make the video longer, but it doesn't seem like you need to worry about it at this size.
In the case of Sage Attention, it seems likely that the rate of increase in memory usage is greater than that of spda, but the generation speed is about half, so I felt that it might be a good setting if generating at this size.
日本語(in Japanese)
動画の一貫性と安定性を向上させる Enhance A Video という技術があります。
Enhance-A-Video: Better Generated Video for Free
Enhance-A-Video: Better Generated Video for Free
WAN の生成動画にどのような影響が出るのか、ComfyUI で違いを確認してみます。
1.使い方と計測条件
以下のように WanVideo Enhance-A-Video ノードを追加し、 WanVideo Sampler ノードに接続します。
使用するワークフローは以前の記事で構築したこちらになります。このワークフロー画像をクリックするとGoogleドライブに保存された画像が表示されるので、そこからダウンロードしてComfyUIにドラッグ&ドロップすればワークフローが再現できます。カスタムノード WanVideoWrapper が導入されていない場合は、以前の記事を参考にインストールしてください。
計測条件は以下となります。
Model : WAN21_BothI2V_14B_FastMix_Q4_K_M.gguf
Text Encoder : umt5_xxl_fp8_e4m3fn_scaled.safetensors
Clip Vision : clip_vision_h.safetensors
VAE : WAN21_VAE_bf16.safetensors
steps = 4, CFG = 1.0, shift = 8.0
Block Swap = 15
動画時間 : 4秒
※モデルは生成速度を早くするLoRAなどをマージしたもので、ここからダウンロードできます。

Zuntan/Wan21-FastMix · Hugging Face
undefined
画像は 480x848 のこちらを使用します。プロンプトは "a woman wearing a princess dress outfit dancing hard, step quickly and jump around." です。
また、計測時のPC環境は以下となります。
M/B: MPG B550 GAMING PLUS (スロットが PCIE4.0 な点に注意)
CPU : Ryzen7 5700X
GPU : RTX5060ti 16GB
RAM : DDR4 3200 64GB (32GBx2)
2. 計測
WanVideo Enhance-A-Video ノードを使用した場合としなかった場合、また end_percent のパラメータを 1.00 と 0.00 にしたときの違いも計測しました。安定性を犠牲に生成速度を上昇させる Sage Attention を使用した場合の計測結果も同時に出しています。
計測結果と生成された動画は以下となりました。動画の並びは表と同じです。
spda
Sage Attention
Enhance-A を使用すると顔の変化が抑えられていることが分かります。また生成時間が少しだけ短くなりました。
end_percent の値を 1.00 から 0.00 に変えた場合、結果には影響が無いように見えますが、使用メモリ量と生成時間にわずかに改善が見られます。
安定性を犠牲にすると謡っていた Sage Attention での計測も行いましたが、そもそも生成動画を見比べても spda との違いが分からない結果となっています。これは縦横サイズを大きくしたり長時間の動画にした場合には変わってくる可能性もありますが、このサイズでは気にしなくてよさそうです。
Sage Attention の場合は使用メモリ量の増加率が spda よりも大きい可能性が伺えますが、生成速度が半分ほどになっているため、このサイズで生成する場合は設定し得かなと感じました。
0 件のコメント:
コメントを投稿