在文生图
这个领域里,甭管是开源的Stable Diffusion 3.5
,还是闭源的在线绘图平台Midjourney
,一度都是不支持中文
提示词。
连prompt
都不支持中文
,就别提想要在图中写入中文
。
虽然SD3.5
、Midjourney
等优秀绘画模型不支持中文
提示词,但国内各大厂商一直致力于中文
提示词。
CogView4-6B
是智谱AI(Zhipu AI
)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。
本地部署
那么,接下来,我们就在本地电脑部署下CogView4-6B
这款开源的绘画模型,看看效果是否真有其官方宣传的那么好。
创建虚拟环境
首先,我们创建个python
虚拟环境,你可以使用anaconda
或miniconda
来创建虚拟环境。我还是使用python3
自带的venv
模块搭建的虚拟环境。
我电脑使用的python
版本为python 3.10.9
,当然你也可以使用python 3.11
。
python -m venv CogView4-env
cd CogView4-env\Scripts
activate
clone 推理代码及下载模型
git clone https://github.com/THUDM/CogView4
cd CogView4
# 根据自身网络条件 选择以下任一方式来下载模型。
# modelscope
git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git
# Huggingface.co
git clone https://huggingface.co/THUDM/CogView4-6B
安装项目所需依赖
其实,如果按照官方的,也就是执行以下这行命令,是无法启动项目的。
pip install -r inference/requirements.txt
按照requirements.txt
的依赖来安装torch
是CPU
版本,并不支持GPU
,所以我们需要uninstall
这个不带GPU
版本的torch
以及torchao
。
如果你电脑的显存低于12G
的话,那么需要设置set MODE=1
。
然而,在Terminal
下载torch
的CUDA
版本,下载速度总是那么不尽如人意。
那么,我们可以直接去https://download.pytorch.org/whl/torch 下载 对应的whl
文件。
我们直接在Terminal
直接pip install torch-xxx.whl
。
卸载CPU
版的torchao
,安装带有CUDA
版本的torchao
。
运行 inference/gradio_web_demo.py
当我们安装好了CUDA
版的torch
和torchao
后,再次执行python inference/gradio_web_demo.py
。
会为我们自动在默认浏览器打开一个页签,如下图。
我这里使用了官方的prompt
,只是把Happy New Year
改成了新春快乐
,看看是不是能真正的写上中文
字。
为了出图快点,我只修改了图片的width
和height
,其他都是默认的,然而,生成的图片,图中的中文
文字却崩
了。