Using Ollama Vision with ComfyUI  「Ollama Visionで画像解析」

29/08/2024

AI ComfyUI Workflow


in English

You can use free LLM Ollama with ComfyUI. It describes an image given to it, and so can help in the creation of natural language prompts like those used by Flux.

1.introduction

The introduction of Ollama to a custom node can be slightly more complex compared to other custom nodes. 

First, install a custom node "ComfyUI Ollama" from ComfyUI Manager.


Next, install Ollama itself at any location. 

Ollama

Ollama

Get up and running with large language models.

This is done under Linux in this case, but you can find installation instructions for Windows and macOS on the official Ollama page if needed.


Open a terminal (console) and navigate to where you want to install it, then import venv.

python3 -m venv venv


Next, To install the main body, run the following code.

source venv/bin/activate

curl -fsSL https://ollama.com/install.sh | sh

pip install ollama


2.basic usage

To use Ollama with ComfyUI, you'll need to start Ollama first and then run a custom node. Again, I'll describe using Linux commands, but please check the official page for other OSes.

Open a terminal and navigate to the location where you installed "venv", then run the following command:

source venv/bin/activate

ollama serve


Now you should be able to run Ollama. Leave this window open until you are finished using Ollama.


Let's open a new terminal and navigate to the location where you installed venv, then execute the following command:

source venv/bin/activate

ollama run llava


The command to enable the Ollama Llava model, which requires a download on first use. Please note that this model is quite large (around 4-5 GB), so be mindful of your remaining storage capacity.

This will take input once started and quit with "/bye". You can close the window if you wish.


It's finally time for ComfyUI. Please drag and drop this workflow [workflow - OllamaVision.json] onto ComfyUI.

Loading an image into "Load Image" node and running it will have "Ollama Vision" node describe the image. This can be used similarly to last time's article "Tagger" [https://mittimi.blogspot.com/2024/08/using-taggers-with-comfyui.html], and since text is natural language, it fits well with Flux and other natural language prompts.


3.others

Ollama is an LLM, so it can be used in various ways.

As I mentioned earlier, the llava model is for image analysis, but you could also use something like "llama3.1" to translate languages - actually this very article was translated from Japanese to English using llama3.1.

To use the new model, open a new terminal, go to the location where you installed venv, and execute the following command. llama3.1 also takes up several gigabytes of space, so be careful.

source venv/bin/activate

ollama run llama3.1


And by using a workflow like this one [workflow - Ollama translate.json], you can easily translate the text.

But, if you just want to interact with AI in Ollama, it is faster to interact directly in the terminal without using ComfyUI:)


日本語解説(in Japanese)

フリーのLLM Ollama を ComfyUI で使うことができます。画像を与えればその画像について説明してくれるので、Fluxなどの自然言語プロンプトの作成に役立ちます。

1.導入

Ollama の導入は他のカスタムノードに比べると少し複雑です。

まずは ComfyUI Manager から カスタムノード ComfyUI Ollama をインストールします。



次に Ollama 本体を任意の場所にインストールします。

Ollama

Ollama

Get up and running with large language models.

ここではLinuxでの方法で行いますが、上記のOllama公式ページにWindowsやmacでのインストール方法も記載されているので、適宜それに従ってください。


ターミナル(コンソール)を開きインストールする場所まで移動し、venvを導入します。

python3 -m venv venv


次に本体をインストールします。

source venv/bin/activate

curl -fsSL https://ollama.com/install.sh | sh

pip install ollama


2.基本的な使用方法

ComfyUI で Ollama を使用するためには、Ollama を起動してからカスタムノードを実行しなければいけません。ここでもLinux用のコマンドで解説しますが、他OSの場合は公式ページをご確認ください。


ターミナルを開きvenvをインストールした場所へ移動後、以下コマンドを実行します。

source venv/bin/activate

ollama serve

これでOllamaを起動できるようになります。Ollamaを使い終わるまでこのウィンドウは閉じずにそのままにしておいてください。


次に、新しくターミナルを開きvenvをインストールした場所へ移動後、以下コマンドを実行します。

source venv/bin/activate

ollama run llava


Ollama の llava というモデルを使えるようにするコマンドです。初回はモデルのダウンロードがあります。4~5GBほどのサイズなので残存容量に気をつけてください。


こちらは起動が終わると入力を受け付けますが、

/bye

と打ち込んで終了します。ウィンドウを閉じてしまってかまいません。


いよいよ ComfyUI の出番です。こちらのワークフロー [workflow - OllamaVision.json] を ComfyUI 上にドラッグ&ドロップしてください。



Load Image に解析したい画像をロードして実行すると、Ollama Vision ノードが画像の説明をしてくれます。

これで前回紹介した Taggerの記事 [https://mittimi.blogspot.com/2024/08/using-taggers-with-comfyui.html] のように使うことができます。そしてテキストは自然言語なので、Fluxなどの自然言語プロンプトに適しています。


3.その他

Ollama はLLMなので色々な使い方ができます。

先ほど紹介した llava というモデルは画像解析用ですが、例えば llama3.1 を使って言語の翻訳をさせたりできます。実はこの記事も llama3.1 で日本語から英語へ翻訳しています。

新しいモデルを使うには先ほどと同じように、新しくターミナルを開きvenvをインストールした場所へ移動後、以下コマンドを実行します。llama3.1 も数ギガバイトの大きい容量を食いますのでご注意ください。

source venv/bin/activate

ollama run llama3.1


そして、このワークフロー [workflow - Ollama translate.json] のように使う事で簡単に文章の翻訳ができます。

ただし、Ollama でAIと対話するだけならComfyUIを使わずターミナルで直接対話したほうがはやいです。

Ko-fi

Major Contents

Contact us

名前

メール *

メッセージ *

QooQ