侧边栏壁纸
博主头像
秋码记录

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

  • 累计撰写 160 篇文章
  • 累计创建 350 个标签
  • 累计创建 47 个分类

Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型

引言

曾几何时,当 Stable Diffusion 文生图开源后,输入一段文本便能生成图片,而惊艳之时。能否在图片写入中文,而不再是乱码,苦求各种解决方案,而不得其一二,多半还是那么强差人意

然而,阿里巴巴千问团队震撼开源的 Qwen-Image ,这款模型不仅精准渲染中文文本,还能智能编辑图像,堪称AI绘画界的"全能选手"!

那么,接下来,就和我一起在 Windows下基于最新版的 ComfyUI ,来部署 Qwen-Image 工作流。

安装 ComfyUI 或更新它

若你还没安装过 ComfyUI,那么你可以先进入 ComfyUI 官网,下载它。

ComfyUI 官网地址:https://www.comfy.org/zh-cn/

image-20250813222656737

假使你跟我一样,之前在电脑下载过 ComfyUI,那么,只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。

image-20250813223125420

下载模型

目前,千问团队开放了 40B20B量化版本这两种参数的模型。这里选用了 20B 量化模型。

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models

image-20250813223650739

下载好这个量化模型,还需下载编码器VAE

https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/

image-20250813204306392

下载好了这些模型,移动到对应的文件夹。

启动 ComfyUI 加载工作流,使用示例提示词生成图片

ComfyUI根目录下,双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口Terminal),稍待几秒后,它会自动打开你电脑默认浏览器,在一个新页签下展示 ComfyUI 的界面。

之后,将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里,即可展现在你面前的便是 Qwen-Image 工作流了。

写入 Qwen-Image 官方提示词。

宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。

image-20250813160927762

虽然与官方给出的图片有些许出入,但这已经很不错了,至少在中文渲染上面,没有出现所谓的乱码。毕竟这是量化版本。

Qwen-Image官方示例提示词:https://qwenlm.github.io/blog/qwen-image/

image-20250813225449947

Lora 模型加持

若你想要生成 Lora 写实风格的图片,那么只需加载 Lora 模型即可。

首先下载 Comfyui支持 Lora模型的工作流。

https://raw.githubusercontent.com/Comfy-org/workflow_templates/refs/heads/main/templates/image_qwen_image.json

直接另存为本地文件,之后再拖入 Comfyui 界面。

由于上面刚刚下载过模型,所以这里只需下载 Lora 模型即可。

image-20250813162803307

若你是跳过上面,而直接来到这里,你是想要 Lora 写实风格的,那么当你拖入工作流时,应当呈现如下图所示。

image-20250813162945899

工作流中默认有一个提示词,直接生成它,先看看效果如何再说。

image-20250813203954331

说到 Lora 写实风格模型,总是逃不开老朋友 civitai.com

https://civitai.com/models/1111989/majicflus-beauty

image-20250813204405368

模型下载下来之后,修改工作流,替换模型名称为你下载下来的新模型。当然咯,存放位置也要放对哦!

image-20250813210200218

写入提示词:

照片捕捉到一个坐在车里的女人,直视前方。她的脸被部分遮挡,使她的表情难以辨认,增添了一种神秘的气息。自然光透过车窗,在她的脸上和车内投下微妙的反射和阴影。色彩柔和而逼真,带有轻微的颗粒感,让人联想到 1970 年代的电影品质。场景让人感到亲密和沉思,捕捉到一个安静、内省的时刻。车窗上贴上了印有黑色黑体字的贴图,上方字体稍大些写着“qiucode.cn",下面则是字体小些写着“秋码记录”。

image-20250813211325097

image-20250813215053020

总体效果还是不错的,若想生成的更好,可以把 步数 加大些。以上生成的图片都是在 20步。

从零样本到跨场景:Seed-VC语音转换技术的革命性突破
« 上一篇 2025-04-18
还以为那只是换个背景?Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事
下一篇 » 2025-08-20

相关推荐

  • 智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇) 2025-03-07 21:26:43 +0800 +0800
    智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇) 在文生图这个领域里,甭管是开源的Stable Diffusion 3.5,还是闭源的在线绘图平台Midjourney,一度都是不支持中文提示词。 连prompt都不支持中文,就别提想要在图中写入中文。 虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词,但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI(Zhipu AI)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。 本地部署 那么,接下来,我们就在本地电脑部署下CogView4-6B这款开源的绘画模型,看看效果是否真有其官方宣传的那么好。 创建虚拟环境 首先,我们创建个python虚拟环境,你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。 我电脑使用的python版本为python 3.10.9,当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件 选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖 其实,如果按照官方的,也就是执行以下这行命令,是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本,并不支持GPU,所以我们需要uninstall这个不带GPU版本的torch以及torchao。 如果你电脑的显存低于12G的话,那么需要设置set MODE=1。 然而,在Terminal下载torch的CUDA版本,下载速度总是那么不尽如人意。 那么,我们可以直接去https://download.pytorch.org/whl/torch 下载 对应的whl文件。 我们直接在Terminal直接pip install torch-xxx.whl。 卸载CPU版的torchao,安装带有CUDA版本的torchao。 运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后,再次执行python inference/gradio_web_demo.py。 会为我们自动在默认浏览器打开一个页签,如下图。 我这里使用了官方的prompt,只是把Happy New Year改成了新春快乐,看看是不是能真正的写上中文字。 为了出图快点,我只修改了图片的width和height,其他都是默认的,然而,生成的图片,图中的中文文字却崩了。
       AI  
  • 保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 2025-02-16 16:26:43 +0800 +0800
    保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 在人工智能领域,生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目,旨在解决这一问题,为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。 项目简介 Story-Adapter项目提出了一种无需训练的迭代框架,用于长篇故事的可视化生成,特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型,Story-Adapter能够根据输入的故事文本,生成一系列连贯且一致的图像帧,适用于绘本创作、动画制作等领域。 项目地址:https://github.com/UCSC-VLAA/story-adapter 环境准备 从项目的README.md中有关于本地安装的必要条件: Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境,这也官方推荐的,可以说是所有开源AI 项目的友好方式。 然而我却不使用anaconda,而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中,务必勾选“Add Python to PATH”选项,以便在命令提示符中直接使用Python命令。 我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后,您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU,并希望利用GPU加速,请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。 克隆项目代码 执行以下命令以克隆Story-Adapter项目代码: git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹,包含项目的所有代码。 安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型 在下载模型,请提前准备好网络(你应该懂的什么是网络吧)。 按照官方的指引来下载对应的模型,及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
       AI  
  • 本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇) 2025-02-03 20:26:43 +0800 +0800
    本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇) 当你在看到文章标题,以及发布时间时,想必你是不会继续浏览下去的,这一点,是可以理解的,换做是我,也会做出同样的抉择。 既然如此,而又为什么又要写这篇文章呢? 其一,之所以没能在Stable Diffusion3.5发布时,在本地电脑部署它,那是因为彼时的老破电脑是不足以安装它的。 其二,赤巨资购买了可以把玩Machine Learning的高配电脑,这才想要在新电脑中部署Stable Diffusion3.5这个文生图大模型,故此,将本地部署过程记录下。 模型大小的区别 Stable Diffusion3.5发布三个不同参数的模型,分别是Medium、Large Turbo、Large。 Stable Diffusion 3.5 Large:该基础型号拥有 80 亿个参数,质量卓越,响应迅速,是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。 稳定扩散 3.5 Large Turbo:稳定扩散 3.5 Large 的精简版仅需 4 个步骤即可生成高质量图像,且具有出色的快速依从性,速度比稳定扩散 3.5 Large 快得多。 Stable Diffusion 3.5 Medium: 该模型拥有 25 亿个参数,采用改进的 MMDiT-X 架构和训练方法,可在消费级硬件上“开箱即用”,在质量和定制易用性之间取得平衡。它能够生成分辨率在 0.25 到 2 百万像素之间的图像。 可以从Hugging Face下载 Stable Diffusion 3.5 Large 【点击下载】 推荐16G以上显存 Stable Diffusion 3.5 Large Turbo 【点击下载】 推荐8G以上显存 安装 下载最新 ComfyUI 我们可以在github.com下载ComfyUI官方打包版,ComfyUI v0.3.13 当然咯,你也是可以下载源码,进行编译。 下载适合自己电脑显存的模型 在Huggingface.co下载Stable Diffusion3.
       AI  
  • 从零样本到跨场景:Seed-VC语音转换技术的革命性突破 2025-04-18 22:42:43 +0800 +0800
    从零样本到跨场景:Seed-VC语音转换技术的革命性突破 引言:当声音克隆不再需要训练 在传统语音转换技术中,用户往往需要数小时的录音数据和复杂的模型训练才能实现声音克隆。而2024年发布的Seed-VC(Speech-to-Speech Voice Conversion)技术打破了这一范式——它通过零样本学习(Zero-Shot Learning)实现即时声音克隆,仅需1-30秒的参考音频即可完成音色复制,甚至支持实时转换和歌声生成 。这项技术不仅在学术界引发关注,更在娱乐、影视、教育等领域掀起应用浪潮。 技术解析:Seed-VC的核心创新 零样本学习的实现原理 Seed-VC基于上下文学习(Contextual Learning)和深度神经网络,通过以下流程完成声音克隆: 特征提取:从源语音和目标语音中提取音高、音色、韵律等关键特征 特征编码:利用XLSR或Whisper模型将声音编码为中间表示 扩散模型生成:采用HiFT或BigVGAN声码器合成高质量语音波形,支持25-100步的扩散过程平衡速度与质量这种架构无需预训练特定音色模型,真正实现“即插即用” 突破性功能:实时与歌声转换 300ms实时处理:通过优化算法延迟和设备侧处理,支持在线会议、直播等场景的即时变声 歌声合成黑科技:将说话语音转换为歌声时,保留原音色特征并自动调整音高,解决传统SVC技术中音色失真问题 性能优势 在客观评估中,Seed-VC在语音清晰度(PESQ 4.32)和相似度(SIM 0.89)上显著超越OpenVoice、CosyVoice等模型,甚至优于部分需训练的模型(如So-VITS 4.0) 应用场景:声音的无限可能 影视与娱乐 为动画角色快速生成定制音色(如用30秒明星语音生成角色配音) 直播中实时切换音色,创造虚拟主播的多样化声线 音乐创作 将未受过声乐训练者的语音转换为专业级歌声,支持半音调校以适配背景音乐 案例演示:用户通过剪映分离背景音后,用Seed-VC将干声转换为数字人演唱版本 教育与医疗 语言学习中模拟不同口音发音,例如中文方言到标准普通话的即时转换。 为失声患者复刻个性化语音,保留情感表达特征。 实践指南:如何快速上手 部署方式 小白友好型:通过Hugging Face的Gradio网页界面直接上传音频 开发者模式:命令行工具支持参数微调,如设置扩散步数(--diffusion-steps)控制生成质量。 模型选择建议 模型版本 适用场景 延迟 参数量 seed-uvit-tat-xlsr-tiny 实时语音转换 <400ms 25M seed-uvit-whisper-base 高保真歌声合成 1-2s 200M 进阶技巧 使用--semi-tone-shift调整音高适配歌曲调性 开启auto-f0-adjust自动对齐说话与歌唱音高 行业影响与未来展望 Seed-VC的出现标志着语音合成技术从“专用模型”向“通用基座”的转型。其自定义微调功能(每位说话人仅需1条语音)让个性化声音克隆门槛大幅降低 。据预测,到2030年,语音转换市场将突破10亿美元,而零样本技术将成为主流 。 Seed-VC不仅是一项技术突破,更是一场关于声音表达的革命。它让每个人都能低成本拥有“声音分身”,重新定义了创作、沟通与身份表达的边界。正如开发者所言:“我们的目标是让任何声音都能被自由塑造,就像文字一样。” 本地部署 我依旧使用python3自带的venv模块来构建python虚拟环境。 python -m venv seed-vc-v2-env cd seed-vc-v2-env/Scripts activate 之后,我们克隆Seed-VC推理代码。 git clone https://github.com/Plachtaa/seed-vc.git 安装与你电脑CUDA版本匹配的torch。
       AI  
  • 大语音模型轻量化革命:MegaTTS3 如何重新定义文本生成语音的技术边界(windows篇) 2025-04-10 23:02:43 +0800 +0800
    大语音模型轻量化革命:MegaTTS3 如何重新定义文本生成语音的技术边界(windows篇) 传统语音合成技术受限于高昂的数据需求和庞大的模型参数规模,难以实现个性化语音的实时生成。而字节跳动与浙江大学联合推出的 MegaTTS3,以其 0.45亿参数轻量级架构 和 零样本语音克隆 能力,打破了这一僵局。作为首个完全开源的高效语音生成模型,MegaTTS3 不仅支持中英双语无缝切换,还能通过短短几秒的音频样本克隆音色,甚至灵活调整口音强度,堪称语音合成领域的“瑞士军刀” 架构解析:扩散模型与Transformer的协同创新 MegaTTS3 的核心架构融合了 扩散模型(Diffusion Model) 与 Transformer 的优势,通过模块化设计实现语音属性的精准解耦与控制。其技术亮点包括: 多模态信息解耦 内容、音色、韵律分离建模:借鉴前作Mega-TTS2的研究成果,MegaTTS3 将语音分解为内容(文本语义)、音色(说话人特征)和韵律(语调节奏)三个独立维度,并通过多参考音色编码器(MRTE)和韵律语言模型(PLM)分别优化,显著提升克隆语音的自然度。 自回归时长模型(ADM):动态捕捉语音节奏变化,确保长句合成的连贯性。 轻量化扩散Transformer主干 采用TTS Diffusion Transformer架构,仅0.45亿参数即可实现与数十亿参数模型相媲美的生成质量。通过混合专家(MoE)设计,模型仅激活部分参数,大幅降低推理资源消耗。 高效训练策略 基于38k小时中英文混合数据训练,结合轻量级监督微调(SFT)和直接偏好优化(DPO),在保证质量的同时提升训练效率。 技术新亮点:不止于“克隆” 零样本语音克隆的突破 仅需3-5秒的参考音频,即可实时生成与目标说话人音色高度相似的语音,无需微调。这一能力得益于其音色编码器的跨说话人泛化能力,支持从儿童到老人、不同语种的多样化音色捕捉。 口音强度可控的语音生成 用户可通过调节参数生成带有特定口音的语音(如“带粤语腔调的普通话”),为虚拟角色赋予地域特色或个性化表达。 中英混合朗读与语音修复 支持同一段文本中中英文自然切换,解决传统模型在双语混合场景下的生硬断句问题。同时,模型可自动修复含噪声或低质量的输入音频,提升鲁棒性。 CPU环境下的高效推理 模型体积仅数百MB,支持在无GPU的本地设备(如普通PC或手机)上实时生成语音,打破硬件限制。 本地部署 首先我们得下载anaconda或miniconda这款用于python虚拟环境管理软件。也许,你有所纳闷,我一贯使用python3自带的venv模块来搭建python虚拟环境,可为什么这次却使用miniconda了呢? 究其原因,是因为MegaTTS3依赖了pynini,而这个依赖库却对windows系统并不是那么的友好,换句话说,若使用python3自带的venv模块来构建的虚拟环境,大概率是安装不了pynini这个依赖库了。 安装miniconda 在安装miniconda时,需将它的安装路径添加到环境变量(PATH)中。 clone MegaTTS3推理代码 我们把MegaTTS3的推理代码给clone到本地。 https://github.com/bytedance/MegaTTS3 使用miniconda创建虚拟环境 我们打开一个Terminal,输入以下命令来搭建一个用于MegaTTS3的虚拟环境: conda create -n megatts3-env 等它创建初始化成功后,我们继续输入以下命令来激活刚刚创建好的虚拟环境。 conda activate megatts3-env 安装依赖 安装pynini==2.1.5 我们cd到刚刚clone MegaTTS3推理代码的目录下,安装pynini==2.1.5。 安装 WeTextProcessing==1.0.3 这个依赖库就是MegaTTS3所必须的,而它又依赖了我们上面刚刚安装的pynini。这就是为什么使用venv模块创建的虚拟环境安装不了pynini依赖库的原因了,前提是在windows系统下噢。 pip install WeTextProcessing==1.0.3 安装MegaTTS3推理代码所需的依赖库 在安装MegaTTS3推理代码的依赖库之前,我们得修改requirements.txt文件,将WeTextProcessing==1.0.41这一行给删除了,你问了,那就回答你,至于为什么删除它,那是我们刚刚不安装了吗! 删除了WeTextProcessing==1.0.41这一行后,保存并关闭requirsments.txt文件。随后在Terminal输入以下命令: pip install -r requirements.txt 设置MegaTTS3虚拟环境的环境变量 至于为什么要设置,若你这么问了,具体的我也回答不上来了,详情请浏览我的博客:秋码记录
       AI