文生图

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

累计撰写 166 篇文章
累计创建 364 个标签
累计创建 50 个分类

包含标签文生图

Flux2 刚开源就凉了？Z-Image 本地部署狠狠打了个样过去一周，AI 生图圈发生了两件颇具戏剧性的事情： 1️⃣ Flux2 开源了，号称第二代旗舰文生图模型。 2️⃣ Z-Image bf16 量化版悄然支持 Windows 本地部署。结果很明显—— Flux2 开源了，社区反应平淡； Z-Image 本地部署了，几乎全网惊呼：“这是普通人能跑的旗舰模型！” 🧊 一、Flux2：开源了，却离普通用户太远 Flux2 由原 Flux 团队开发，本身技术能力不容置疑，但其开源策略与用户实际能力产生了巨大的落差：显存要求：最低 48GB，旗舰配置 80GB 本地部署成本：Linux + 高端 GPU + 一堆依赖出图速度：即使在 48GB 显卡上，单张也可能耗时 10–60 秒对绝大多数普通创作者来说： “你开源得再好，我也跑不动。” 社区吐槽如潮： “开源个寂寞” “我连下载都点了，但我知道我跑不动” “这不是给用户开源，这是给科研实验室开源” 一句话总结：Flux2 开源了，但没人能真正用起来。 🔥 二、Z-Image bf16：企业实力 + 技术优化，让本地生图触手可及与此同时，另一边出现了一个实力派选手： Z-Image bf16 本地量化版，由 Alibaba.com 集团旗下 Tongyi Labs 开发，依托企业级技术与科研实力，通过 bf16 量化优化模型大小和显存占用，实现 Windows 本地 16GB 显卡可用。当我们第一次在 RTX 4060 上部署成功时，显存监控跳出： 12.7GB
- 2025-11-29
[AI]
Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型引言曾几何时，当 Stable Diffusion 文生图开源后，输入一段文本便能生成图片，而惊艳之时。能否在图片写入中文，而不再是乱码，苦求各种解决方案，而不得其一二，多半还是那么强差人意。然而，阿里巴巴千问团队震撼开源的 Qwen-Image ，这款模型不仅精准渲染中文文本，还能智能编辑图像，堪称AI绘画界的"全能选手"！那么，接下来，就和我一起在 Windows下基于最新版的 ComfyUI ，来部署 Qwen-Image 工作流。安装 ComfyUI 或更新它若你还没安装过 ComfyUI，那么你可以先进入 ComfyUI 官网，下载它。 ComfyUI 官网地址：https://www.comfy.org/zh-cn/ 假使你跟我一样，之前在电脑下载过 ComfyUI，那么，只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。下载模型目前，千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。 https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models 下载好这个量化模型，还需下载编码器和 VAE。 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 下载好了这些模型，移动到对应的文件夹。启动 ComfyUI 加载工作流，使用示例提示词生成图片在 ComfyUI根目录下，双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口（ Terminal），稍待几秒后，它会自动打开你电脑默认浏览器，在一个新页签下展示 ComfyUI 的界面。之后，将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里，即可展现在你面前的便是 Qwen-Image 工作流了。写入 Qwen-Image 官方提示词。宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子，里面摆放着发光的服务器机箱，门口两个侍卫守护者。右边有两家店铺，其中一家挂着“云计算”的牌子，一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕；另一家店铺挂着“云模型”的牌子，门口放着一个大酒缸，上面写着“千问”，一位老板娘正在往里面倒发光的代码溶液。虽然与官方给出的图片有些许出入，但这已经很不错了，至少在中文渲染上面，没有出现所谓的乱码。毕竟这是量化版本。 Qwen-Image官方示例提示词：https://qwenlm.github.io/blog/qwen-image/ Lora 模型加持若你想要生成 Lora 写实风格的图片，那么只需加载 Lora 模型即可。
- 2025-08-14
[AI]
智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）在文生图这个领域里，甭管是开源的Stable Diffusion 3.5，还是闭源的在线绘图平台Midjourney，一度都是不支持中文提示词。连prompt都不支持中文，就别提想要在图中写入中文。虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词，但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI（Zhipu AI）推出的文生图模型，通过结合文本与图像的跨模态生成技术，在中文场景下展现出显著优势。本地部署那么，接下来，我们就在本地电脑部署下CogView4-6B这款开源的绘画模型，看看效果是否真有其官方宣传的那么好。创建虚拟环境首先，我们创建个python虚拟环境，你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。我电脑使用的python版本为python 3.10.9，当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖其实，如果按照官方的，也就是执行以下这行命令，是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本，并不支持GPU，所以我们需要uninstall这个不带GPU版本的torch以及torchao。如果你电脑的显存低于12G的话，那么需要设置set MODE=1。然而，在Terminal下载torch的CUDA版本，下载速度总是那么不尽如人意。那么，我们可以直接去https://download.pytorch.org/whl/torch 下载对应的whl文件。我们直接在Terminal直接pip install torch-xxx.whl。卸载CPU版的torchao，安装带有CUDA版本的torchao。运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后，再次执行python inference/gradio_web_demo.py。会为我们自动在默认浏览器打开一个页签，如下图。我这里使用了官方的prompt，只是把Happy New Year改成了新春快乐，看看是不是能真正的写上中文字。为了出图快点，我只修改了图片的width和height，其他都是默认的，然而，生成的图片，图中的中文文字却崩了。
- 2025-03-07
[AI]
保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇在人工智能领域，生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目，旨在解决这一问题，为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。项目简介 Story-Adapter项目提出了一种无需训练的迭代框架，用于长篇故事的可视化生成，特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型，Story-Adapter能够根据输入的故事文本，生成一系列连贯且一致的图像帧，适用于绘本创作、动画制作等领域。项目地址：https://github.com/UCSC-VLAA/story-adapter 环境准备从项目的README.md中有关于本地安装的必要条件： Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境，这也官方推荐的，可以说是所有开源AI 项目的友好方式。然而我却不使用anaconda，而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中，务必勾选“Add Python to PATH”选项，以便在命令提示符中直接使用Python命令。我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后，您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU，并希望利用GPU加速，请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。克隆项目代码执行以下命令以克隆Story-Adapter项目代码： git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹，包含项目的所有代码。安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型在下载模型，请提前准备好网络（你应该懂的什么是网络吧）。按照官方的指引来下载对应的模型，及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
- 2025-02-16
[AI]
本地部署 Stable Diffusion 3.5（最新 ComfyUI记录篇）当你在看到文章标题，以及发布时间时，想必你是不会继续浏览下去的，这一点，是可以理解的，换做是我，也会做出同样的抉择。既然如此，而又为什么又要写这篇文章呢？其一，之所以没能在Stable Diffusion3.5发布时，在本地电脑部署它，那是因为彼时的老破电脑是不足以安装它的。其二，赤巨资购买了可以把玩Machine Learning的高配电脑，这才想要在新电脑中部署Stable Diffusion3.5这个文生图大模型，故此，将本地部署过程记录下。模型大小的区别 Stable Diffusion3.5发布三个不同参数的模型，分别是Medium、Large Turbo、Large。 Stable Diffusion 3.5 Large：该基础型号拥有 80 亿个参数，质量卓越，响应迅速，是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。稳定扩散 3.5 Large Turbo：稳定扩散 3.5 Large 的精简版仅需 4 个步骤即可生成高质量图像，且具有出色的快速依从性，速度比稳定扩散 3.5 Large 快得多。 Stable Diffusion 3.5 Medium：该模型拥有 25 亿个参数，采用改进的 MMDiT-X 架构和训练方法，可在消费级硬件上“开箱即用”，在质量和定制易用性之间取得平衡。它能够生成分辨率在 0.25 到 2 百万像素之间的图像。可以从Hugging Face下载 Stable Diffusion 3.5 Large 【点击下载】推荐16G以上显存 Stable Diffusion 3.5 Large Turbo 【点击下载】推荐8G以上显存安装下载最新 ComfyUI 我们可以在github.com下载ComfyUI官方打包版，ComfyUI v0.3.13 当然咯，你也是可以下载源码，进行编译。下载适合自己电脑显存的模型在Huggingface.co下载Stable Diffusion3.
- 2025-02-03
[AI]