侧边栏壁纸
博主头像
秋码记录

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

  • 累计撰写 150 篇文章
  • 累计创建 333 个标签
  • 累计创建 47 个分类

智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇)

文生图这个领域里,甭管是开源的Stable Diffusion 3.5,还是闭源的在线绘图平台Midjourney,一度都是不支持中文提示词。

prompt都不支持中文,就别提想要在图中写入中文

虽然SD3.5Midjourney等优秀绘画模型不支持中文提示词,但国内各大厂商一直致力于中文提示词。

CogView4-6B是智谱AI(Zhipu AI)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。

本地部署

那么,接下来,我们就在本地电脑部署下CogView4-6B这款开源的绘画模型,看看效果是否真有其官方宣传的那么好。

创建虚拟环境

首先,我们创建个python虚拟环境,你可以使用anacondaminiconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。

我电脑使用的python版本为python 3.10.9,当然你也可以使用python 3.11

python -m venv CogView4-env
cd CogView4-env\Scripts
activate

image-20250306205008542

clone 推理代码及下载模型

git clone https://github.com/THUDM/CogView4
cd CogView4

# 根据自身网络条件 选择以下任一方式来下载模型。
# modelscope
git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git
# Huggingface.co
git clone https://huggingface.co/THUDM/CogView4-6B

image-20250306220752257

安装项目所需依赖

其实,如果按照官方的,也就是执行以下这行命令,是无法启动项目的。

pip install -r inference/requirements.txt

image-20250306221135572

按照requirements.txt的依赖来安装torchCPU版本,并不支持GPU,所以我们需要uninstall这个不带GPU版本的torch以及torchao

image-20250306224521933

如果你电脑的显存低于12G的话,那么需要设置set MODE=1

image-20250307213300060

image-20250306222355282

然而,在Terminal下载torchCUDA版本,下载速度总是那么不尽如人意。

image-20250306223548708

那么,我们可以直接去https://download.pytorch.org/whl/torch 下载 对应的whl文件。

image-20250306223905705

image-20250306223621222

我们直接在Terminal直接pip install torch-xxx.whl

image-20250306224141919

卸载CPU版的torchao,安装带有CUDA版本的torchao

image-20250306224758564

运行 inference/gradio_web_demo.py

当我们安装好了CUDA版的torchtorchao后,再次执行python inference/gradio_web_demo.py

会为我们自动在默认浏览器打开一个页签,如下图。

我这里使用了官方的prompt,只是把Happy New Year改成了新春快乐,看看是不是能真正的写上中文字。

为了出图快点,我只修改了图片的widthheight,其他都是默认的,然而,生成的图片,图中的中文文字却了。

image-20250307205026259

基于歌词生成整首歌的开源AI音乐模型,支持中、英、日、韩等多种语言,本地化部署YuE(windows篇)
« 上一篇 2025-03-05
基于Qwen2.5大模型的Spark-TTS,零样本语音克隆,CPU可运行之本地部署(Windows篇)
下一篇 » 2025-03-10

相关推荐

  • 保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 2025-02-16 16:26:43 +0800 +0800
    保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 在人工智能领域,生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目,旨在解决这一问题,为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。 项目简介 Story-Adapter项目提出了一种无需训练的迭代框架,用于长篇故事的可视化生成,特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型,Story-Adapter能够根据输入的故事文本,生成一系列连贯且一致的图像帧,适用于绘本创作、动画制作等领域。 项目地址:https://github.com/UCSC-VLAA/story-adapter 环境准备 从项目的README.md中有关于本地安装的必要条件: Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境,这也官方推荐的,可以说是所有开源AI 项目的友好方式。 然而我却不使用anaconda,而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中,务必勾选“Add Python to PATH”选项,以便在命令提示符中直接使用Python命令。 我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后,您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU,并希望利用GPU加速,请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。 克隆项目代码 执行以下命令以克隆Story-Adapter项目代码: git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹,包含项目的所有代码。 安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型 在下载模型,请提前准备好网络(你应该懂的什么是网络吧)。 按照官方的指引来下载对应的模型,及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
       AI  
  • 基于歌词生成整首歌的开源AI音乐模型,支持中、英、日、韩等多种语言,本地化部署YuE(windows篇) 2025-03-05 21:26:43 +0800 +0800
    基于歌词生成整首歌的开源AI音乐模型,支持中、英、日、韩等多种语言,本地化部署YuE(windows篇) 说起文生音乐,我们自然会想到suno.ai这个音乐生成式平台,它算是目前市面上音乐生成式比较好的AI项目,虽然它是闭源的。 然而,一款由Multimodal Art Projection(M-A-P)(多模态艺术投影)团队与香港科技大学(HKUST)联合研发的YuE开源了,它是根据歌词生成整首歌的开源AI音乐模型。 YuE的开源,着实在开发者社区掀起了一阵热潮,但也给了AI浪潮中的文生音乐助推了不小波澜。 YuE 是一系列开创性的开源基础模型,专为音乐生成而设计,专门用于将歌词转换成完整的歌曲(lyrics2song)。它可以生成一首完整的歌曲,持续几分钟,包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。请访问演示页面,了解令人惊叹的声乐表演。 概述 YuE项目地址:https://github.com/multimodal-art-projection/YuE 。 按照官方描述: YuE 需要大量 GPU 来生成长序列。以下是推荐的配置: 对于具有 24GB 或更少的 GPU:运行最多 2 个会话以避免内存不足 (OOM) 错误。 对于完整的歌曲生成(许多会话,例如 4 个或更多):使用具有至少 80GB 的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。 要自定义会话数,界面允许您指定所需的会话数。默认情况下,模型运行 2 个会话(1 节 + 1 合唱)以避免 OOM 问题。 在 H800 GPU 上,生成 30 秒的音频需要 150 秒。在 RTX 4090 GPU 上,生成 30 秒的音频大约需要 360 秒。 社区提供了对于 GPU 资源有限的人,有 YuE-exllamav2 和 YuEGP。虽然两者都提高了生成速度和连贯性,但它们可能会损害音乐性。 YuEGP github地址:https://github.com/deepbeepmeep/YuEGP 。 YuE-exllamav2 github地址: https://github.com/sgsdxzy/YuE-exllamav2。
       AI  
  • 阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型 2025-03-01 21:26:43 +0800 +0800
    阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型 概述 阿里云开源了其视频生成大模型Wan2.1(万相),采用了较为宽松的Apache2.0协议。 而这次对外了1.3B(极速版)和14B(专业版)两个参数规格的权重,及推理的全部代码。 这两种模型均支持文生视频(T2V)和图生视频(I2V)任务。 14B版本在权威评测集VBench中以86.22%总分超越Sora、Luma等国内外模型;1.3B版本可在消费级显卡运行(仅需8.2GB显存生成480P视频),适合二次开发和研究。 复杂运动生成:精准模拟人物旋转、跳跃、翻滚等动作,支持高级运镜控制 物理规律建模:真实还原碰撞、反弹、切割等场景,符合现实物理规则 中英文指令理解:支持长文本指令,实现场景切换、角色互动和多语言文字特效 技术原理 架构设计 因果3D VAE:专为视频设计的变分自编码器,高效压缩时空信息并保持生成连贯性 视频Diffusion Transformer(DiT):结合扩散模型和Transformer,逐步去噪生成视频,捕捉长时程依赖关系 分布式训练优化:采用DP、FSDP、RingAttention等混合并行策略,加速训练与推理 性能提升技术 引入插件式增强块(如Enhance-A-Video),通过跨帧注意力调节提升时序一致性,减少画面模糊和跳帧问题 本地部署 我电脑的环境: python:3.10.9 CUDA:12.4 windows11 我们还是一如既往的先创建python虚拟环境,我这里使用的是python3自带的venv来搭建虚拟环境,当然咯,你也是可以使用anaconda或miniconda来创建虚拟环境。 python -m venv Wan2.1-env cd Scripts activate 随后,我们clone万相的推理代码。 git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1 项目依赖库安装 之后我们安装torch>=2.4.0,这是官方所要求的。 pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124 再者我们安装项目的requirements.txt依赖文件时,发现有flash-attention这个依赖,它可是可以加速推理的一个框架。 然而,它对windows可并那么友好啊。但是flash-attention社区还是有人编译出了windows的wheel,也省的我们自己去编译了。 为此,我特意将CUDA toolkit从12.1升级到12.4,关于这一点,是可以从我前几篇的文章看出来的。 https://github.com/kingbri1/flash-attention/releases 将下载下来的wheel直接通过pip install进行安装。 pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl 至此,我们再来执行以下命令,来完成安装项目所需的依赖库。 pip install -r requirements.txt 下载模型 我们通过modelscope来下载模型。 pip install modelscope 我这里下载的是Wan-AI/Wan2.1-T2V-1.3B,若你要下载14B的模型,只需将1.3B换成14B即可(前提是你电脑的硬件环境允许的条件下)。 modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B 模型 下载链接 备注 T2V-14B 🤗 Huggingface 🤖 ModelScope 支持 480P 和 720P I2V-14B-720P 🤗 Huggingface 🤖 ModelScope 支持 720P I2V-14B-480P 🤗 Huggingface 🤖 ModelScope 支持 480P T2V-1.
       AI  
  • 互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill 2025-02-25 22:26:43 +0800 +0800
    互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill 曾几何时,我们想要对图片进行PS,那可是难为了我们这般PS门外汉。 然而,MagicQuill这款开源的图像元素修改,可算是解救了我们这些PS小白啊。 那么,现在我们就可以在自己电脑部署这款开源的图像编辑神器。 但想要在本地电脑部署这款开源的AI图像编辑神器,你的电脑显存要大于12G(虽然官方说是8G),预留硬盘空间在40G(模型就有30G),CUDA版本得在12.1或更高。 创建 python 虚拟环境 创建python虚拟环境是为了每个项目,库依赖各自隔离,不受影响。 我电脑python使用的版本是3.10.9,使用python自带的venv来创建虚拟环境,当然咯,你也可以使用anaconda或miniconda来创建虚拟环境。 随后,我们激活刚刚创建好的虚拟环境。 python -m venv MagicQuill-env cd MagicQuill-env/Scripts activate clone MagicQuil 项目代码 git clone --recursive https://github.com/magic-quill/MagicQuill.git cd MagicQuill 安装支持GPU的 torch 依赖 至于版本,那是官方的READMD.md中提到的,使用了阿里云镜像,能加速torch在国内的下载。 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 -f https://mirrors.aliyun.com/pytorch-wheels/cu121 安装 MagicQuill 支持 gradio 依赖 这个位于项目根路径下,我们直接pip install这个wheel文件即可。 pip install gradio_magicquill-0.0.1-py3-none-any.whl 安装 llava 依赖 这个llava也是包含在项目中的。 首先,我们需要将项目根路径下的pyproject.toml复制到MagicQuill\LLaVA\。 随后,安装llava依赖。 copy /Y pyproject.toml MagicQuill\LLaVA\ pip install -e MagicQuill\LLaVA\ 7、安装项目必须依赖。 安装项目必须依赖 pip install -r requirements.txt 下载模型 模型大小总共29.9GB,所以电脑硬盘得预留出这么大的空间出来。 国内可直接:https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1
       AI  
  • 本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇) 2025-02-23 21:26:43 +0800 +0800
    本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇) Qwen2.5-VL是阿里云推出的开源多模态大模型,支持图像理解、视频分析、文档结构化处理等功能。 较上一个版本Qwen2-VL有质的飞越,Qwen2.5-VL通过动态分辨率适配和窗口注意力机制,显著降低显存占用并提升推理速度,72B模型在单卡A100上推理速度提升30% 。 身在AI这股浪潮中,只要本地电脑硬件条件允许的话,我都会尝试着去部署优秀的开源大模型。 说到开源大模型,相对而言的就是闭源大模型,我们在脑海中很自然地浮现出国外的OPENAI,以及国内的百度,也就是李彦宏所说的“开源大模型,对个人是没有好处”(好像是这么说的吧)。 由于DeepSeek的冲击,据说百度将要开源大模型了,这李彦宏不是妥妥的打了自己的脸了吗?很想隔空问李彦宏一句话,难道你的脸不痛吗? 克隆Qwen2.5-VL代码及安装必须依赖 git clone https://github.com/QwenLM/Qwen2.5-VL.git 使用Python3自带的venv库,创建虚拟环境。当然你也可以使用anaconda或miniconda工具进行创建python虚拟环境。 python -m venv qwen-vl-env cd qwen-vl-env\Script activate 之后回到Qwen2.5-VL代码的根路径下,进行必须依赖安装。 cd Qwen2.5-VL pip install -r requirements_web_demo.txt 当然,为了可以使用GPU来推理,还需安装与你的CUDA版本匹配的pytorch pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121 其实pytorch依赖是包含在requirements_web_demo.txt文件中,那是CPU版本的。 而对于windows用户来说,以下这步也是多余的。 pip install qwen-vl-utils 下载模型 Qwen2.5-VL开源三个不同参数的大模型,分别是3B、7B、72B。 Huggingface模型地址:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5 Modelscope魔塔社区:https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47 运行官方的gradio demo示例 可不知是什么原因,我运行python web_demo_mm.py却出现错误,报的错误都是与gradio相关的错误信息,致使我一度怀疑,是不是需要更新gradio的依赖呢。 然而,事与愿违,报错还是一如既往报错,它可不会因为你更新了gradio依赖,就停止报错了。 所以呢,我就运行官方不带gradio的示例,结果却成功,这让我异常兴奋。 import torch from modelscope import snapshot_download from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor from qwen_vl_utils import process_vision_info # default: Load the model on the available device(s) # model = Qwen2_5_VLForConditionalGeneration.
       AI