侧边栏壁纸
博主头像
秋码记录

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

  • 累计撰写 162 篇文章
  • 累计创建 354 个标签
  • 累计创建 47 个分类

Flux2 刚开源就凉了?Z-Image 本地部署狠狠打了个样

过去一周,AI 生图圈发生了两件颇具戏剧性的事情:

1️⃣ Flux2 开源了,号称第二代旗舰文生图模型。 2️⃣ Z-Image bf16 量化版悄然支持 Windows 本地部署。

结果很明显—— Flux2 开源了,社区反应平淡; Z-Image 本地部署了,几乎全网惊呼:“这是普通人能跑的旗舰模型!”

🧊 一、Flux2:开源了,却离普通用户太远

Flux2 由原 Flux 团队开发,本身技术能力不容置疑,但其开源策略与用户实际能力产生了巨大的落差:

  • 显存要求:最低 48GB,旗舰配置 80GB
  • 本地部署成本:Linux + 高端 GPU + 一堆依赖
  • 出图速度:即使在 48GB 显卡上,单张也可能耗时 10–60 秒

对绝大多数普通创作者来说:

“你开源得再好,我也跑不动。”

社区吐槽如潮:

  • “开源个寂寞”
  • “我连下载都点了,但我知道我跑不动”
  • “这不是给用户开源,这是给科研实验室开源”

一句话总结:Flux2 开源了,但没人能真正用起来。

🔥 二、Z-Image bf16:企业实力 + 技术优化,让本地生图触手可及

与此同时,另一边出现了一个实力派选手:

Z-Image bf16 本地量化版,由 Alibaba.com 集团旗下 Tongyi Labs 开发,依托企业级技术与科研实力,通过 bf16 量化 优化模型大小和显存占用,实现 Windows 本地 16GB 显卡可用

当我们第一次在 RTX 4060 上部署成功时,显存监控跳出:

12.7GB

单张出图:

2–3 秒

连续生成 300 张图:

稳定无崩溃

团队所有人都愣住了:

“这才是真正把 AI 生图能力带到每个人桌面上的奇迹!”

💻 三、Z-Image 量化版Windows 本地部署步骤

部署 Z-Image bf16 量化版,只需 5 分钟就能完成,真正做到零门槛:

  • 1、首先,更新本地 ComfyUI 到最新版本。双击运行图中红色框中的文件。

image-20251129140348876

  • 2、下载模型。https://comfyanonymous.github.io/ComfyUI_examples/z_image/

    image-20251129140551038

    Huggingface

    国内镜像

    模型下载好了,放置对应的文件夹下面即可。

  • 启动 ComfyUI 并加载工作流。

    image-20251129141005246

    将图片选中拖入到 comfy UI启动好的了的界面中。

    image-20251129141146438

整个体验就像雷军第一次演示小米手机:简单、惊艳、人人能用。

🥊 四、Flux2 vs Z-Image:核心指标对比

指标Flux2Z-Image bf16
最低显存48GB12–14GB
典型显卡A100/H1003060/4060
出图速度10–60 秒/张2–3 秒/张
本地部署难度高(Linux + GPU + 依赖)低(Windows + ComfyUI)
连续生成稳定性易崩溃300 张以上稳定
目标用户高端科研/企业普通创作者/设计师/学生

总结:

Flux2 是实验室工具 Z-Image 是日常工具

🔥 五、为什么 Z-Image 打了整个行业一个样

  1. 普惠性:16GB 显卡就能跑,普通用户可用
  2. 速度快:秒级出图,迭代效率成倍提升
  3. 稳定性强:长时间批量生成无崩溃
  4. 部署成本低:Windows + ComfyUI + 5 分钟上手
  5. 安全性高:数据 100% 本地,不上传、不泄露

一句话总结:Z-Image 把旗舰级 AI 生图能力,真正交到了普通用户手里。

Flux2 开源了,却远离用户; Z-Image 不吵不闹,却狠狠打了一个样。

提示词:

一个男子背着双肩包,站在山巅崖上一块巨大的石头上,右手搭在前额,因为此时的太阳正处于他的正前方,以此才能看清远处一朵云彩,正被飞往南方的燕子遮隐了,然而那些向南飞的燕子,似乎以云彩为背景,排列出上行为“qiucode.cn",下方则是”秋码记录“的字样。

image-20251129142519327

声音的未来:Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导
« 上一篇 2025-09-04
一套由 Hugo 驱动的博客主题 hugo-theme-kiwi 开源啦
下一篇 » 2023-12-24

相关推荐

  • Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型 2025-08-14 19:42:43 +0800 +0800
    Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型 引言 曾几何时,当 Stable Diffusion 文生图开源后,输入一段文本便能生成图片,而惊艳之时。能否在图片写入中文,而不再是乱码,苦求各种解决方案,而不得其一二,多半还是那么强差人意。 然而,阿里巴巴千问团队震撼开源的 Qwen-Image ,这款模型不仅精准渲染中文文本,还能智能编辑图像,堪称AI绘画界的"全能选手"! 那么,接下来,就和我一起在 Windows下基于最新版的 ComfyUI ,来部署 Qwen-Image 工作流。 安装 ComfyUI 或更新它 若你还没安装过 ComfyUI,那么你可以先进入 ComfyUI 官网,下载它。 ComfyUI 官网地址:https://www.comfy.org/zh-cn/ 假使你跟我一样,之前在电脑下载过 ComfyUI,那么,只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。 下载模型 目前,千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。 https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models 下载好这个量化模型,还需下载编码器和 VAE。 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 下载好了这些模型,移动到对应的文件夹。 启动 ComfyUI 加载工作流,使用示例提示词生成图片 在 ComfyUI根目录下,双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口( Terminal),稍待几秒后,它会自动打开你电脑默认浏览器,在一个新页签下展示 ComfyUI 的界面。 之后,将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里,即可展现在你面前的便是 Qwen-Image 工作流了。 写入 Qwen-Image 官方提示词。 宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。 虽然与官方给出的图片有些许出入,但这已经很不错了,至少在中文渲染上面,没有出现所谓的乱码。毕竟这是量化版本。 Qwen-Image官方示例提示词:https://qwenlm.github.io/blog/qwen-image/ Lora 模型加持 若你想要生成 Lora 写实风格的图片,那么只需加载 Lora 模型即可。
       AI  
  • 智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇) 2025-03-07 21:26:43 +0800 +0800
    智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇) 在文生图这个领域里,甭管是开源的Stable Diffusion 3.5,还是闭源的在线绘图平台Midjourney,一度都是不支持中文提示词。 连prompt都不支持中文,就别提想要在图中写入中文。 虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词,但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI(Zhipu AI)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。 本地部署 那么,接下来,我们就在本地电脑部署下CogView4-6B这款开源的绘画模型,看看效果是否真有其官方宣传的那么好。 创建虚拟环境 首先,我们创建个python虚拟环境,你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。 我电脑使用的python版本为python 3.10.9,当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件 选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖 其实,如果按照官方的,也就是执行以下这行命令,是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本,并不支持GPU,所以我们需要uninstall这个不带GPU版本的torch以及torchao。 如果你电脑的显存低于12G的话,那么需要设置set MODE=1。 然而,在Terminal下载torch的CUDA版本,下载速度总是那么不尽如人意。 那么,我们可以直接去https://download.pytorch.org/whl/torch 下载 对应的whl文件。 我们直接在Terminal直接pip install torch-xxx.whl。 卸载CPU版的torchao,安装带有CUDA版本的torchao。 运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后,再次执行python inference/gradio_web_demo.py。 会为我们自动在默认浏览器打开一个页签,如下图。 我这里使用了官方的prompt,只是把Happy New Year改成了新春快乐,看看是不是能真正的写上中文字。 为了出图快点,我只修改了图片的width和height,其他都是默认的,然而,生成的图片,图中的中文文字却崩了。
       AI  
  • 保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 2025-02-16 16:26:43 +0800 +0800
    保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 在人工智能领域,生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目,旨在解决这一问题,为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。 项目简介 Story-Adapter项目提出了一种无需训练的迭代框架,用于长篇故事的可视化生成,特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型,Story-Adapter能够根据输入的故事文本,生成一系列连贯且一致的图像帧,适用于绘本创作、动画制作等领域。 项目地址:https://github.com/UCSC-VLAA/story-adapter 环境准备 从项目的README.md中有关于本地安装的必要条件: Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境,这也官方推荐的,可以说是所有开源AI 项目的友好方式。 然而我却不使用anaconda,而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中,务必勾选“Add Python to PATH”选项,以便在命令提示符中直接使用Python命令。 我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后,您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU,并希望利用GPU加速,请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。 克隆项目代码 执行以下命令以克隆Story-Adapter项目代码: git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹,包含项目的所有代码。 安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型 在下载模型,请提前准备好网络(你应该懂的什么是网络吧)。 按照官方的指引来下载对应的模型,及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
       AI  
  • 声音的未来:Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导 2025-09-04 20:37:43 +0800 +0800
    声音的未来:Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导 在开源 TTS(文本转语音)界,情感控制一直是科研与实际应用追求的目标。然而,当 Resemble AI 提出的 Chatterbox 宣称自己是「第一个支持情感夸张控制的开源 TTS 模型」时,我们该如何审视这项说法的准确性,又该如何展现它真正的创新所在? 一、情感控制:开源 TTS 项目的竞争图谱 实际上,在 Chatterbox 之前,已有多个开源项目在“情感控制”层面做出了重要探索: EmoSphere-TTS(INTERSPEECH 2024 官方实现) 通过在三维情感空间(arousal, valence, dominance)基础上引入“球面情感向量”,支持连续的 情绪风格 + 强度控制,精细度和自然表现力都值得称道。GitHubarXiv EmotiVoice(网易有道,2024) 提供离线开源引擎,支持中文和英文,可使用情绪标签(如“开心”“激动”“悲伤”“愤怒”)控制语调与情绪表达。GitHub 其他探索类工具和基础组件 包含 Coqui TTS、ESPnet TTS、Mozilla TTS 等框架,它们支持通过调节音高、音量、速度等参数来生成情绪化语音。Reddit 最新研究成果 包括 EmoVoice(LLM + 自然语言情绪提示控制)、EmoSteer-TTS(训练自由的激活引导方式)、EmoMix(情绪混合与强度调控)、EmoKnob(克隆 + 情绪细致调控)等研究,为开源情感 TTS 系带来更多可能。arXiv+3arXiv+3arXiv+3 结论:Chatterbox 并非历史上第一个拥有情感控制能力的开源 TTS。但它的情绪“夸张度”滑块是一种独特且易用的控制方式。 二、Chatterbox 的真正卖点:更直观、更生产力 1. 「情感夸张度(emotion exaggeration)旋钮」 Chatterbox 将复杂的情绪表现提取为一个用户可调节的单参数滑块,从「冷静」到「夸张」,让用户更容易定制。(官网与 README 均强调该功能)GitHubchatterbox.run 2. 面向生产的用户体验 安装简便:支持 pip,一行代码启动。 实时化:延迟低于 200ms,适合在线服务、互动式应用。Resemble AIchatterbox.run 3. 零样本语音克隆 + 多语言支持 支持仅用少量参考音进行克隆,无需训练即可生成个性化声音。 官方页面提及支持“23+”语言,让它更适配全球多语内容生成。Resemble AI 4. 水印保障:PerTh 隐形音频水印 嵌入人耳不易察觉但可精确检测的水印,支持追责与内容溯源,即使经过压缩剪辑也能识别。chatterbox.
       AI  
  • 还以为那只是换个背景?Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事 2025-08-20 18:37:43 +0800 +0800
    还以为那只是换个背景?Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事 阿里巴巴 通义千问团队发布并开源了 Qwen-Image-Edit 图像编辑大模型,它是基于 20B 的 Qwen-Image 模型进一步训练,成功将 Qwen-Image 的文本渲染特色能力拓展到编辑任务上,以支持精准的文字编辑。此外,Qwen-Image-Edit 将输入图像同时输入到 Qwen2.5-VL(获取视觉语义控制)和 VAE Encoder(获得视觉外观控制),以同时获得语义/外观双重编辑能力。 精准文字编辑: Qwen-Image-Edit 支持中英双语文字编辑,可以在保留文字大小/字体/风格的前提下,直接编辑图片中文字,进行增删改。 语义/外观 双重编辑: Qwen-Image-Edit 不仅支持 low-level 的视觉外观编辑(例如风格迁移,增删改等),也支持 high-level 的视觉语义编辑(例如 IP 制作,物体旋转等) 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在编辑任务中均获得 SOTA,是一个强大的图像生成基础模型。 下载模型 对于国内的朋友,可以在国内镜像下载 Qwen-Image-Edit 模型: https://hf-mirror.com/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_models LoRA Qwen-Image-Lightning-4steps-V1.0.safetensors Text encoder qwen_2.5_vl_7b_fp8_scaled.safetensors VAE qwen_image_vae.safetensors 等以上模型都下载完成后,按以下存放路径,拖入到 Comfyui 对应的文件夹内。 📂 ComfyUI/ ├── 📂 models/ │ ├── 📂 diffusion_models/ │ │ └── qwen_image_edit_fp8_e4m3fn.safetensors │ ├── 📂 loras/ │ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors │ ├── 📂 vae/ │ │ └── qwen_image_vae.
       AI