日期:
来源:Github爱好者收集编辑:
Visual ChatGPT
连接了 ChatGPT
和一系列的 Visual Foundation
模型,以便在聊天过程中发送和接收图像。
下图为演示效果:
对该应用实现感兴趣的可以查看其论文 Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
(https://arxiv.org/abs/2303.04671)。
整个系统架构如下所示:
要安装的话可以安装下面的命令步骤进行:
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
下面列出了每个视觉基础模型的 GPU 内存使用情况,可以修改 self.tools
使用较少的视觉基础模型来节省您的 GPU 内存:
Foundation Model | Memory Usage (MB) |
---|---|
ImageEditing | 6667 |
ImageCaption | 1755 |
T2I | 6677 |
canny2image | 5540 |
line2image | 6679 |
hed2image | 6679 |
scribble2image | 6679 |
pose2image | 6681 |
BLIPVQA | 2709 |
seg2image | 5540 |
depth2image | 6677 |
normal2image | 3974 |
InstructPix2Pix | 2795 |
Github地址:https://github.com/microsoft/visual-chatgpt