in English
The video generation AI WAN2.2 has two models, High and Low, which makes the workflow in ComfyUI a bit complicated. We will explain this using the I2V workflow below as an example. In the second half, we will also explain how to increase the number of samplers in the High model to two.
Please refer to the download links at the end of this article for the workflow. For both I2V and T2V, both the standard version and the version using three Ksamplers are available.
1. General workflow for WAN2.2
The above is an example of the I2V workflow for WAN2.2. For ease of understanding, we have divided it into four phases: "Input," "Generation using the High Model," "Generation using the Low Model," and "Output." A download link for the actual workflow is provided at the end of this article.
Let's take a look at what each phase does.
1.1 Input
The input is the same as in WAN2.1, input a prompt and an image and pass it to Ksampler. Note that Ksampler is divided into two, one for the High model and one for the Low model, so connect to the one for the High model.
There is also an Image Resize node sandwiched between them, which is a very useful node because it resizes the long side of the image input from the Load Image node to a specified length while maintaining the aspect ratio.
The value entered into the node labeled LongSide 512-1280px will be the length of the long side after resizing. In the example image above, it will be 720px.
Enter the total number of frames in the length field of the WanImageToVideo node. WAN2.2's 14B is 16 frames per second, so enter a multiple of 16 plus 1. There is information that if you increase it beyond 5 seconds (81 frames), it will try to return to the pause of the input image, but in my experience it was fine up to 7 seconds (113 frames).
1.2. High model generation
First, we generate the first time using the High model. The High model generates the rough movement, and the Low model generates the details.
Let's look at the nodes starting from the left.
The Unet Loader (GGUF) node loads the WAN2.2 High model. If you want to load the regular model instead of GGUF, use the Load Diffusion Model node instead.
The following SageAttention and BlockSwap nodes are used to speed up the process and utilize main memory. If you are not using them, you can bypass them. Please refer to the previous article for more information on BlockSwap.

Using WAN Video Block Swap with ComfyUI "Reducing VRAM memory usage with Block Swap"
in English Generating video requires a large amount of VRAM (graphics card memory), so using normal methods it is not possible to generate ...
The following Power LoRA Loader node is a convenient node that can be used with multiple LoRAs. If you don't want to install a custom node, please use the official LoRA Loader node.
The NAG node is the node that makes the negative prompt effective. In this workflow, we will apply accelerated LoRA, so set CFG to 1.0. Normally, negative prompts do not work when CFG is 1.0, but they become effective when processed by the NAG node. If you do not use accelerated LoRA, bypass it.
The LightX2V node is just a renamed LoRA Loader node. Enter the accelerated LoRA LightX2V or Lightning LoRA here. For more information on accelerated LoRA, please refer to our previous article.
Using WAN Video Self-Forcing and LightX2V with ComfyUI "Achieve stability and speed with Self-Forcing and LightX2V"
in English There is a technology called Self-Forcing that stabilizes the generated video , and a technology called LightX2V that generat...
Lightning for WAN2.2 doesn't have a very good reputation, so I use LightX2V for 2.1.
The ModelSamplingSD3 node is a node that affects the movement of the video. The lower the value, the more intense the movement.
The HiNoiseSteps node exists independently to calculate the sum of the number of steps in LowNoise (total number of steps). This is because if Ksampler has two stages, you need to enter the total value in the Steps field. If you are not using accelerated LoRA, increase the number of steps to double digits.
Finally, when configuring the Ksampler node, if you are not using accelerated LoRA, increase CFG to 3.5 or similar.
1.3. Low model generation
It is the same as explained for High. Please note that for Low, you will need to use the model for Low, LoRA.
As mentioned earlier, Low generates details, so in some cases, for example, face LoRA only needs to be applied to Low.
The data generated by the Low Ksampler is sent to the Output Phase.
1.4. Output
The generated data is decoded to create a video. This flow outputs both webp and mp4.
Since the calculation is done at 16 frames per second, enter 16 for fps and frame_rate.
2. Workflow using three Ksamplers
Accelerated LoRA dramatically speeds up generation, but has the disadvantage of being prone to motion suppression. However, if you don't accelerate it, the number of steps will be 20 or more, and the generation time will be extremely long.
As a compromise between these two, a workflow using three Ksamplers was devised.
As shown above, High is divided into two stages and processed as High → High → Low. The first High does not use accelerated LoRA, but the second High and Low do.
Since High is a process related to movement, the technique is to first generate only a few steps the first time to confirm the movement, and then perform high-speed processing in the second High.
Although it takes longer than normal acceleration processing, it is significantly faster than a flow that does not use acceleration at all, so it is a flow that can be used when you want to create movement.
3. Download each workflow
The links for each workflow (json) are below. They have been uploaded to Google Drive.
These are just examples, feel free to customize them or use them as inspiration for other workflows.
日本語解説(in Japanese)
動画生成AIのWAN2.2はモデルがHighとLowの2つに分かれており、ComfyUIにおいてワークフローが少し複雑になっています。以下のI2Vワークフローを例に解説していきます。また後半ではHighモデルのサンプラーを二つに増やす方式についても解説します。
ワークフローは本記事の末尾にダウンロード用リンクを貼りますのでご参照ください。I2V、T2Vそれぞれについて、通常と3つのKsamplerを使ったもの両方を用意しています。
1.WAN2.2 の一般的なワークフローについて
上記がWAN2.2のI2Vワークフローの例です。分かりやすくするために、「入力」、「Highモデルを使用した生成」、「Lowモデルの生成」、「出力」の4つのフェイズに分けました。実際のワークフローは本記事末尾にダウンロードリンクを貼っています。
それぞれのフェイズ毎に何をしているか見ていきましょう。
1.1.入力
入力はWAN2.1のときと変わらず、プロンプトと画像を入力しKsamplerへ渡します。注意点としては、KsamplerはHighモデル用とLowモデル用の2つに分かれているため、Highモデル用の方へ接続するという点です。
また、Image Resizeノードを挟んでいますが、これはLoad Imageノードから入力された画像の長辺を指定した長さへリサイズする際にアスペクト比を保ったままリサイズしてくれるため、とても便利なノードとなっています。
LongSide 512~1280px と書かれたノードに入力した数値が、リサイズ後の長辺の長さになります。上の画像の例では720pxになるということです。
WanImageToVideoノードのlengthではフレーム総数を入力します。WAN2.2の14Bは1秒16フレームなので、16の倍数プラス1を入力します。5秒(81フレーム)より大きくすると入力画像のポーズに戻ろうとするとの情報もありますが、体感では7秒(113フレーム)までなら大丈夫でした。
1.2.Highモデルでの生成
Highモデルを使用してまず1回目の生成を行います。Highでは大まかな動きを生成し、Lowでディティールを生成するという流れになります。
左のノードから順にみていきます。
Unet Loader(GGUF)ノードでWAN2.2のHighモデルをロードしています。GGUFではなく通常のモデルの場合は、代わりにLoad Diffusion Modelノードを使用します。
次のSageAttentionノードとBlockSwapノードは、高速化とメインメモリ活用のノードとなります。使用しない場合はバイパスします。BlockSwapについては過去に解説した記事を参照ください。

Using WAN Video Block Swap with ComfyUI 「Block SwapでVRAM使用メモリを削減する」
in English Generating video requires a large amount of VRAM (graphics card memory), so using normal methods it is not possible to generate ...
次のPower LoRA Loaderノードは、複数のLoRAを適用できる便利なノードです。カスタムノードを導入するのが嫌な場合は公式のLoRA Loaderノードを使用してください。
NAGノードはネガティブプロンプトの効力を発揮させるためのノードとなります。このワークフローでは高速化LoRAを適用するため、CFGを1.0にします。通常CFGが1.0ではネガティブプロンプトは効きませんが、NAGノードで処理をすることにより効くようになります。高速化LoRAを使用しない場合はバイパスします。
LightX2VノードはただのLoRA Loaderノードの名称を変えたものです。ここに高速化LoRAであるLightX2VやLightning LoRAを入力します。高速化LoRAについては過去の記事を参照ください。
Using WAN Video Self-Forcing and LightX2V with ComfyUI 「Self Forcing と LightX2V で安定化と高速化を実現させる」
in English There is a technology called Self-Forcing that stabilizes the generated video , and a technology called LightX2V that generat...
WAN2.2用のLightningは評判があまり良くないので、私は2.1用のLightX2Vを使用しています。
ModelSamplingSD3ノードは動画の動きにかかわるノードです。数値が低いほうが動きが激しくなるとのことです。
HiNoiseStepsノードはLowNoiseのステップ数との合計値(総ステップ数)を計算するため独立して存在しています。Ksamplerが2段階の場合はStepsの項目に合計値を入力する必要があるためです。もし高速化LoRAを使用しない場合は、ステップ数は2桁に増やします。
最後、Ksamplerノードの設定も、高速化LoRAを使用しない場合はCFGを3.5などに増やします。
1.3.Lowモデルでの生成
Highで解説したものと変わりません。LowではLow用のモデル、LoRAを使用する点は注意が必要です。
先ほど述べたように、Lowではディティールの生成が行われるため、例えば顔LoRAなどはLowだけに適用すれば良い場合もあります。
LowのKsamplerで生成されたデータは、Outputフェイズへ送られます。
1.4.出力
生成されたデータをデコードして動画にします。このフローではwebpとmp4どちらも出力しています。
1秒16フレームで計算しているため、fps、frame_rateは16と入力します。
2.Ksamplerを3つ使ったワークフローについて
高速化LoRAは生成を劇的に早めますが、動きが抑制されやすいというデメリットがあります。しかし高速化しない場合はステップ数が20以上になり生成時間がとてつもなく長くなってしまいます。
これらの折衷案としてKsamplerを3つ使ったワークフローが考案されました。
上記のように、Highを2段階にしてHigh→High→Lowという処理をします。1回目のHighは高速化LoRAを使用せず、2回目のHighとLowには高速化LoRAを適用します。
Highは動きにかかわる処理なので、まず1回目で数ステップだけ生成して動きを確定させて、2回目のHighで高速処理をするという技です。
通常の高速化処理よりは時間がかかりますが、高速化を一切使用しないフローよりは格段に速いため、動きを出したいときには使えるフローとなります。
3.各ワークフローのダウンロード
各ワークフロー(json)のリンクは以下となります。Googleドライブにアップロードしています。
これらは一例です。カスタマイズしたり他のワークフローも参考にしてください。
0 件のコメント:
コメントを投稿