侧边栏壁纸
博主头像
秋码记录

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

  • 累计撰写 160 篇文章
  • 累计创建 350 个标签
  • 累计创建 47 个分类

还以为那只是换个背景?Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事

阿里巴巴 通义千问团队发布并开源了 Qwen-Image-Edit 图像编辑大模型,它是基于 20BQwen-Image 模型进一步训练,成功将 Qwen-Image 的文本渲染特色能力拓展到编辑任务上,以支持精准的文字编辑。此外,Qwen-Image-Edit 将输入图像同时输入到 Qwen2.5-VL(获取视觉语义控制)和 VAE Encoder(获得视觉外观控制),以同时获得语义/外观双重编辑能力。

  • 精准文字编辑: Qwen-Image-Edit 支持中英双语文字编辑,可以在保留文字大小/字体/风格的前提下,直接编辑图片中文字,进行增删改。
  • 语义/外观 双重编辑: Qwen-Image-Edit 不仅支持 low-level 的视觉外观编辑(例如风格迁移,增删改等),也支持 high-level 的视觉语义编辑(例如 IP 制作,物体旋转等)
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在编辑任务中均获得 SOTA,是一个强大的图像生成基础模型。

下载模型

对于国内的朋友,可以在国内镜像下载 Qwen-Image-Edit 模型: https://hf-mirror.com/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_models

image-20250820135921213

LoRA

image-20250820140640852

Text encoder

image-20250820140757127

VAE

image-20250820140851562

等以上模型都下载完成后,按以下存放路径,拖入到 Comfyui 对应的文件夹内。

📂 ComfyUI/ ├── 📂 models/ │ ├── 📂 diffusion_models/ │ │ └── qwen_image_edit_fp8_e4m3fn.safetensors │ ├── 📂 loras/ │ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors │ ├── 📂 vae/ │ │ └── qwen_image_vae.safetensors │ └── 📂 text_encoders/ │ └── qwen_2.5_vl_7b_fp8_scaled.safetensors

加载工作流

可以从 Comfyui 文档中获取 Qwen-Image-Edit 工作流。

https://docs.comfy.org/zh-CN/tutorials/image/qwen/qwen-image-edit

image-20250820141501363

将以上的工作流直接拖入 Comfyui 中,或者点击 下载 JSON 格式工作流文件,而后同样的拖入到 Comfyui 界面中。

image-20250820162104246

注意:Comfyui 需要更新到最新版本,否则的话,是找不到 TextEncodeQwenImageEdit 这个节点的!

去除了原图中的文字及按钮,最终结果还是很丝滑啊!

image-20250820172304500

那么,现在该试一下中文提示词是怎么样的效果?

先是上传一张带有 https://qiucode.cn 以及暗绿色的树叶小图标的水印图,目标是去除该 水印

Prompt(提示词)

移除图中的“https://qiucode.cn" 文字,以及那个树叶的小图标,不要改变原图的整体UI。

image-20250820181017229

哇塞,最终按我的意愿,去除了 https://qiucode.cn 以及那个树叶小图标的水印。

Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型
« 上一篇 2025-08-14
一套由 Hugo 驱动的博客主题 hugo-theme-kiwi 开源啦
下一篇 » 2023-12-24

相关推荐

  • Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型 2025-08-14 19:42:43 +0800 +0800
    Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型 引言 曾几何时,当 Stable Diffusion 文生图开源后,输入一段文本便能生成图片,而惊艳之时。能否在图片写入中文,而不再是乱码,苦求各种解决方案,而不得其一二,多半还是那么强差人意。 然而,阿里巴巴千问团队震撼开源的 Qwen-Image ,这款模型不仅精准渲染中文文本,还能智能编辑图像,堪称AI绘画界的"全能选手"! 那么,接下来,就和我一起在 Windows下基于最新版的 ComfyUI ,来部署 Qwen-Image 工作流。 安装 ComfyUI 或更新它 若你还没安装过 ComfyUI,那么你可以先进入 ComfyUI 官网,下载它。 ComfyUI 官网地址:https://www.comfy.org/zh-cn/ 假使你跟我一样,之前在电脑下载过 ComfyUI,那么,只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。 下载模型 目前,千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。 https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models 下载好这个量化模型,还需下载编码器和 VAE。 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 下载好了这些模型,移动到对应的文件夹。 启动 ComfyUI 加载工作流,使用示例提示词生成图片 在 ComfyUI根目录下,双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口( Terminal),稍待几秒后,它会自动打开你电脑默认浏览器,在一个新页签下展示 ComfyUI 的界面。 之后,将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里,即可展现在你面前的便是 Qwen-Image 工作流了。 写入 Qwen-Image 官方提示词。 宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。 虽然与官方给出的图片有些许出入,但这已经很不错了,至少在中文渲染上面,没有出现所谓的乱码。毕竟这是量化版本。 Qwen-Image官方示例提示词:https://qwenlm.github.io/blog/qwen-image/ Lora 模型加持 若你想要生成 Lora 写实风格的图片,那么只需加载 Lora 模型即可。
       AI  
  • 互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill 2025-02-25 22:26:43 +0800 +0800
    互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill 曾几何时,我们想要对图片进行PS,那可是难为了我们这般PS门外汉。 然而,MagicQuill这款开源的图像元素修改,可算是解救了我们这些PS小白啊。 那么,现在我们就可以在自己电脑部署这款开源的图像编辑神器。 但想要在本地电脑部署这款开源的AI图像编辑神器,你的电脑显存要大于12G(虽然官方说是8G),预留硬盘空间在40G(模型就有30G),CUDA版本得在12.1或更高。 创建 python 虚拟环境 创建python虚拟环境是为了每个项目,库依赖各自隔离,不受影响。 我电脑python使用的版本是3.10.9,使用python自带的venv来创建虚拟环境,当然咯,你也可以使用anaconda或miniconda来创建虚拟环境。 随后,我们激活刚刚创建好的虚拟环境。 python -m venv MagicQuill-env cd MagicQuill-env/Scripts activate clone MagicQuil 项目代码 git clone --recursive https://github.com/magic-quill/MagicQuill.git cd MagicQuill 安装支持GPU的 torch 依赖 至于版本,那是官方的READMD.md中提到的,使用了阿里云镜像,能加速torch在国内的下载。 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 -f https://mirrors.aliyun.com/pytorch-wheels/cu121 安装 MagicQuill 支持 gradio 依赖 这个位于项目根路径下,我们直接pip install这个wheel文件即可。 pip install gradio_magicquill-0.0.1-py3-none-any.whl 安装 llava 依赖 这个llava也是包含在项目中的。 首先,我们需要将项目根路径下的pyproject.toml复制到MagicQuill\LLaVA\。 随后,安装llava依赖。 copy /Y pyproject.toml MagicQuill\LLaVA\ pip install -e MagicQuill\LLaVA\ 7、安装项目必须依赖。 安装项目必须依赖 pip install -r requirements.txt 下载模型 模型大小总共29.9GB,所以电脑硬盘得预留出这么大的空间出来。 国内可直接:https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1
       AI  
  • 从零样本到跨场景:Seed-VC语音转换技术的革命性突破 2025-04-18 22:42:43 +0800 +0800
    从零样本到跨场景:Seed-VC语音转换技术的革命性突破 引言:当声音克隆不再需要训练 在传统语音转换技术中,用户往往需要数小时的录音数据和复杂的模型训练才能实现声音克隆。而2024年发布的Seed-VC(Speech-to-Speech Voice Conversion)技术打破了这一范式——它通过零样本学习(Zero-Shot Learning)实现即时声音克隆,仅需1-30秒的参考音频即可完成音色复制,甚至支持实时转换和歌声生成 。这项技术不仅在学术界引发关注,更在娱乐、影视、教育等领域掀起应用浪潮。 技术解析:Seed-VC的核心创新 零样本学习的实现原理 Seed-VC基于上下文学习(Contextual Learning)和深度神经网络,通过以下流程完成声音克隆: 特征提取:从源语音和目标语音中提取音高、音色、韵律等关键特征 特征编码:利用XLSR或Whisper模型将声音编码为中间表示 扩散模型生成:采用HiFT或BigVGAN声码器合成高质量语音波形,支持25-100步的扩散过程平衡速度与质量这种架构无需预训练特定音色模型,真正实现“即插即用” 突破性功能:实时与歌声转换 300ms实时处理:通过优化算法延迟和设备侧处理,支持在线会议、直播等场景的即时变声 歌声合成黑科技:将说话语音转换为歌声时,保留原音色特征并自动调整音高,解决传统SVC技术中音色失真问题 性能优势 在客观评估中,Seed-VC在语音清晰度(PESQ 4.32)和相似度(SIM 0.89)上显著超越OpenVoice、CosyVoice等模型,甚至优于部分需训练的模型(如So-VITS 4.0) 应用场景:声音的无限可能 影视与娱乐 为动画角色快速生成定制音色(如用30秒明星语音生成角色配音) 直播中实时切换音色,创造虚拟主播的多样化声线 音乐创作 将未受过声乐训练者的语音转换为专业级歌声,支持半音调校以适配背景音乐 案例演示:用户通过剪映分离背景音后,用Seed-VC将干声转换为数字人演唱版本 教育与医疗 语言学习中模拟不同口音发音,例如中文方言到标准普通话的即时转换。 为失声患者复刻个性化语音,保留情感表达特征。 实践指南:如何快速上手 部署方式 小白友好型:通过Hugging Face的Gradio网页界面直接上传音频 开发者模式:命令行工具支持参数微调,如设置扩散步数(--diffusion-steps)控制生成质量。 模型选择建议 模型版本 适用场景 延迟 参数量 seed-uvit-tat-xlsr-tiny 实时语音转换 <400ms 25M seed-uvit-whisper-base 高保真歌声合成 1-2s 200M 进阶技巧 使用--semi-tone-shift调整音高适配歌曲调性 开启auto-f0-adjust自动对齐说话与歌唱音高 行业影响与未来展望 Seed-VC的出现标志着语音合成技术从“专用模型”向“通用基座”的转型。其自定义微调功能(每位说话人仅需1条语音)让个性化声音克隆门槛大幅降低 。据预测,到2030年,语音转换市场将突破10亿美元,而零样本技术将成为主流 。 Seed-VC不仅是一项技术突破,更是一场关于声音表达的革命。它让每个人都能低成本拥有“声音分身”,重新定义了创作、沟通与身份表达的边界。正如开发者所言:“我们的目标是让任何声音都能被自由塑造,就像文字一样。” 本地部署 我依旧使用python3自带的venv模块来构建python虚拟环境。 python -m venv seed-vc-v2-env cd seed-vc-v2-env/Scripts activate 之后,我们克隆Seed-VC推理代码。 git clone https://github.com/Plachtaa/seed-vc.git 安装与你电脑CUDA版本匹配的torch。
       AI  
  • 大语音模型轻量化革命:MegaTTS3 如何重新定义文本生成语音的技术边界(windows篇) 2025-04-10 23:02:43 +0800 +0800
    大语音模型轻量化革命:MegaTTS3 如何重新定义文本生成语音的技术边界(windows篇) 传统语音合成技术受限于高昂的数据需求和庞大的模型参数规模,难以实现个性化语音的实时生成。而字节跳动与浙江大学联合推出的 MegaTTS3,以其 0.45亿参数轻量级架构 和 零样本语音克隆 能力,打破了这一僵局。作为首个完全开源的高效语音生成模型,MegaTTS3 不仅支持中英双语无缝切换,还能通过短短几秒的音频样本克隆音色,甚至灵活调整口音强度,堪称语音合成领域的“瑞士军刀” 架构解析:扩散模型与Transformer的协同创新 MegaTTS3 的核心架构融合了 扩散模型(Diffusion Model) 与 Transformer 的优势,通过模块化设计实现语音属性的精准解耦与控制。其技术亮点包括: 多模态信息解耦 内容、音色、韵律分离建模:借鉴前作Mega-TTS2的研究成果,MegaTTS3 将语音分解为内容(文本语义)、音色(说话人特征)和韵律(语调节奏)三个独立维度,并通过多参考音色编码器(MRTE)和韵律语言模型(PLM)分别优化,显著提升克隆语音的自然度。 自回归时长模型(ADM):动态捕捉语音节奏变化,确保长句合成的连贯性。 轻量化扩散Transformer主干 采用TTS Diffusion Transformer架构,仅0.45亿参数即可实现与数十亿参数模型相媲美的生成质量。通过混合专家(MoE)设计,模型仅激活部分参数,大幅降低推理资源消耗。 高效训练策略 基于38k小时中英文混合数据训练,结合轻量级监督微调(SFT)和直接偏好优化(DPO),在保证质量的同时提升训练效率。 技术新亮点:不止于“克隆” 零样本语音克隆的突破 仅需3-5秒的参考音频,即可实时生成与目标说话人音色高度相似的语音,无需微调。这一能力得益于其音色编码器的跨说话人泛化能力,支持从儿童到老人、不同语种的多样化音色捕捉。 口音强度可控的语音生成 用户可通过调节参数生成带有特定口音的语音(如“带粤语腔调的普通话”),为虚拟角色赋予地域特色或个性化表达。 中英混合朗读与语音修复 支持同一段文本中中英文自然切换,解决传统模型在双语混合场景下的生硬断句问题。同时,模型可自动修复含噪声或低质量的输入音频,提升鲁棒性。 CPU环境下的高效推理 模型体积仅数百MB,支持在无GPU的本地设备(如普通PC或手机)上实时生成语音,打破硬件限制。 本地部署 首先我们得下载anaconda或miniconda这款用于python虚拟环境管理软件。也许,你有所纳闷,我一贯使用python3自带的venv模块来搭建python虚拟环境,可为什么这次却使用miniconda了呢? 究其原因,是因为MegaTTS3依赖了pynini,而这个依赖库却对windows系统并不是那么的友好,换句话说,若使用python3自带的venv模块来构建的虚拟环境,大概率是安装不了pynini这个依赖库了。 安装miniconda 在安装miniconda时,需将它的安装路径添加到环境变量(PATH)中。 clone MegaTTS3推理代码 我们把MegaTTS3的推理代码给clone到本地。 https://github.com/bytedance/MegaTTS3 使用miniconda创建虚拟环境 我们打开一个Terminal,输入以下命令来搭建一个用于MegaTTS3的虚拟环境: conda create -n megatts3-env 等它创建初始化成功后,我们继续输入以下命令来激活刚刚创建好的虚拟环境。 conda activate megatts3-env 安装依赖 安装pynini==2.1.5 我们cd到刚刚clone MegaTTS3推理代码的目录下,安装pynini==2.1.5。 安装 WeTextProcessing==1.0.3 这个依赖库就是MegaTTS3所必须的,而它又依赖了我们上面刚刚安装的pynini。这就是为什么使用venv模块创建的虚拟环境安装不了pynini依赖库的原因了,前提是在windows系统下噢。 pip install WeTextProcessing==1.0.3 安装MegaTTS3推理代码所需的依赖库 在安装MegaTTS3推理代码的依赖库之前,我们得修改requirements.txt文件,将WeTextProcessing==1.0.41这一行给删除了,你问了,那就回答你,至于为什么删除它,那是我们刚刚不安装了吗! 删除了WeTextProcessing==1.0.41这一行后,保存并关闭requirsments.txt文件。随后在Terminal输入以下命令: pip install -r requirements.txt 设置MegaTTS3虚拟环境的环境变量 至于为什么要设置,若你这么问了,具体的我也回答不上来了,详情请浏览我的博客:秋码记录
       AI  
  • 竞赛级编程大模型OlympicCoder-7B之本地部署(Windows篇) 2025-04-01 23:02:43 +0800 +0800
    竞赛级编程大模型OlympicCoder-7B之本地部署(Windows篇) 一、核心定位与技术亮点 竞赛级代码推理能力 OlympicCoder-7B 针对编程竞赛(如国际信息学奥林匹克竞赛 IOI)需求设计,通过 CodeForces-CoTs 数据集(包含 10 万高质量思维链样本)进行训练,覆盖 C++ 和 Python 语言的算法实现。该模型在 IOI 挑战赛中表现出色,生成代码的通过率和效率显著优于同规模模型 。 真实竞赛场景优化 模型模拟了竞赛中的提交策略优化机制,例如在严格的时限内生成代码并通过测试用例验证,确保生成结果的正确性和效率。其训练数据整合了 CodeForces、DeepMind CodeContests 等竞赛平台的问题及官方解题思路,强化了算法逻辑的精准性 。 轻量化与高效部署 作为 7B 参数量的模型,OlympicCoder-7B 在保证性能的同时降低了硬件门槛,可在消费级 GPU 上运行,适合开发者和教育机构本地化部署。量化版本(如 Q4_K_M)内存占用仅约 5GB,生成速度可达 45 tokens/s 。 二、性能对比与实测表现 算法竞赛任务 在 CodeForces 和 IOI 题型测试中,OlympicCoder-7B 的代码生成准确率接近 32B 版本(如 OlympicCoder-32B),且在贪吃蛇游戏等复杂编程任务中生成代码的可执行性显著优于同规模模型 。 跨模型对比 与同属代码生成领域的 aiXcoder-7B(北大开源)相比,OlympicCoder-7B 在竞赛题目上的表现更优,但 aiXcoder 在长上下文补全(支持 32k 上下文)和企业级开发场景中更具优势 。而与 Magicoder-7B(UIUC/清华联合开发)相比,OlympicCoder 更专注于算法优化而非通用代码生成 。 三、应用场景与局限性 适用场景 算法竞赛训练:为选手提供代码思路和解题参考。 编程教育工具:辅助学生理解复杂算法实现逻辑。 自动化评测系统:生成测试用例或验证代码正确性。 局限性 领域专注性:在通用软件开发场景(如 Web 开发)中表现不及专用模型。 数据时效性:需定期更新竞赛题库以保持模型对最新题型的适应能力。 四、本地部署 首先,我们使用python3自带的venv模块来搭建python 虚拟环境。当然,你也可以使用anaconda或者miniconda来构建python 虚拟环境。
       AI