侧边栏壁纸
博主头像
秋码记录

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

  • 累计撰写 150 篇文章
  • 累计创建 333 个标签
  • 累计创建 47 个分类

互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill

曾几何时,我们想要对图片进行PS,那可是难为了我们这般PS门外汉。

然而,MagicQuill这款开源的图像元素修改,可算是解救了我们这些PS小白啊。

那么,现在我们就可以在自己电脑部署这款开源的图像编辑神器。

但想要在本地电脑部署这款开源的AI图像编辑神器,你的电脑显存要大于12G(虽然官方说是8G),预留硬盘空间在40G(模型就有30G),CUDA版本得在12.1或更高。

创建 python 虚拟环境

创建python虚拟环境是为了每个项目,库依赖各自隔离,不受影响。

我电脑python使用的版本是3.10.9,使用python自带的venv来创建虚拟环境,当然咯,你也可以使用anacondaminiconda来创建虚拟环境。

随后,我们激活刚刚创建好的虚拟环境。

python -m venv MagicQuill-env
cd MagicQuill-env/Scripts
activate

clone MagicQuil 项目代码

git clone --recursive https://github.com/magic-quill/MagicQuill.git
cd MagicQuill

安装支持GPU的 torch 依赖

至于版本,那是官方的READMD.md中提到的,使用了阿里云镜像,能加速torch在国内的下载。

pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 -f https://mirrors.aliyun.com/pytorch-wheels/cu121

image-20250224213543194

安装 MagicQuill 支持 gradio 依赖

这个位于项目根路径下,我们直接pip install这个wheel文件即可。

image-20250224203944520

pip install gradio_magicquill-0.0.1-py3-none-any.whl

image-20250224204113769

安装 llava 依赖

这个llava也是包含在项目中的。

首先,我们需要将项目根路径下的pyproject.toml复制到MagicQuill\LLaVA\

随后,安装llava依赖。

copy /Y pyproject.toml MagicQuill\LLaVA\

image-20250224204711332

pip install -e MagicQuill\LLaVA\

image-20250224210935618

7、安装项目必须依赖。

安装项目必须依赖

pip install -r requirements.txt

image-20250224205116276

下载模型

模型大小总共29.9GB,所以电脑硬盘得预留出这么大的空间出来。

国内可直接:https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1

Hugginface:https://huggingface.co/LiuZichen/MagicQuill-models/tree/main

image-20250224205708461

下载后,直接解压到当前路径即可。

image-20250224205444974

运行 gradio_run.py

但出现如下图所示的错误,那是这个项目需要去hugginfface下载必要的文件,这时,就得在terminal开启网络咯(你应该懂得什么是网络吧!)

image-20250224220202462

我们设置好了网络后,再次执行python gradio.py,便开始从Huggingface.co下载项目必要的文件及模型。

image-20250224220113152

等所有必要文件下载成功后,出现下图这般信息,说明我们在本地电脑部署成功了。

那么,接下来,就是我们表演的时候了。

image-20250225210024624

我们借助Stable Diffusion3.5随意画出一张图片,好在MagicQuill上尽情的把玩。

image-20250225211315787

随后,我们将刚刚SD3.5为我们生成图片,上传到MagicQuill中,对这张图进行编辑,以感受它所带来的震撼感。

image-20250225211603072

我们先来个简单的,那边给图片中的人物戴上太阳镜,这也是官方给出的示例,所推崇的。

生成出来的效果还是挺不错的。

image-20250225211821086

接下来,我们来点不一样的,让我们的肾腺直线飙升,对图中人物增删元素。

image-20250225212604099

本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇)
« 上一篇 2025-02-23
阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型
下一篇 » 2025-03-01

相关推荐

  • 本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇) 2025-02-23 21:26:43 +0800 +0800
    本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇) Qwen2.5-VL是阿里云推出的开源多模态大模型,支持图像理解、视频分析、文档结构化处理等功能。 较上一个版本Qwen2-VL有质的飞越,Qwen2.5-VL通过动态分辨率适配和窗口注意力机制,显著降低显存占用并提升推理速度,72B模型在单卡A100上推理速度提升30% 。 身在AI这股浪潮中,只要本地电脑硬件条件允许的话,我都会尝试着去部署优秀的开源大模型。 说到开源大模型,相对而言的就是闭源大模型,我们在脑海中很自然地浮现出国外的OPENAI,以及国内的百度,也就是李彦宏所说的“开源大模型,对个人是没有好处”(好像是这么说的吧)。 由于DeepSeek的冲击,据说百度将要开源大模型了,这李彦宏不是妥妥的打了自己的脸了吗?很想隔空问李彦宏一句话,难道你的脸不痛吗? 克隆Qwen2.5-VL代码及安装必须依赖 git clone https://github.com/QwenLM/Qwen2.5-VL.git 使用Python3自带的venv库,创建虚拟环境。当然你也可以使用anaconda或miniconda工具进行创建python虚拟环境。 python -m venv qwen-vl-env cd qwen-vl-env\Script activate 之后回到Qwen2.5-VL代码的根路径下,进行必须依赖安装。 cd Qwen2.5-VL pip install -r requirements_web_demo.txt 当然,为了可以使用GPU来推理,还需安装与你的CUDA版本匹配的pytorch pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121 其实pytorch依赖是包含在requirements_web_demo.txt文件中,那是CPU版本的。 而对于windows用户来说,以下这步也是多余的。 pip install qwen-vl-utils 下载模型 Qwen2.5-VL开源三个不同参数的大模型,分别是3B、7B、72B。 Huggingface模型地址:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5 Modelscope魔塔社区:https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47 运行官方的gradio demo示例 可不知是什么原因,我运行python web_demo_mm.py却出现错误,报的错误都是与gradio相关的错误信息,致使我一度怀疑,是不是需要更新gradio的依赖呢。 然而,事与愿违,报错还是一如既往报错,它可不会因为你更新了gradio依赖,就停止报错了。 所以呢,我就运行官方不带gradio的示例,结果却成功,这让我异常兴奋。 import torch from modelscope import snapshot_download from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor from qwen_vl_utils import process_vision_info # default: Load the model on the available device(s) # model = Qwen2_5_VLForConditionalGeneration.
       AI  
  • 保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 2025-02-16 16:26:43 +0800 +0800
    保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇 在人工智能领域,生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目,旨在解决这一问题,为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。 项目简介 Story-Adapter项目提出了一种无需训练的迭代框架,用于长篇故事的可视化生成,特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型,Story-Adapter能够根据输入的故事文本,生成一系列连贯且一致的图像帧,适用于绘本创作、动画制作等领域。 项目地址:https://github.com/UCSC-VLAA/story-adapter 环境准备 从项目的README.md中有关于本地安装的必要条件: Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境,这也官方推荐的,可以说是所有开源AI 项目的友好方式。 然而我却不使用anaconda,而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中,务必勾选“Add Python to PATH”选项,以便在命令提示符中直接使用Python命令。 我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后,您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU,并希望利用GPU加速,请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。 克隆项目代码 执行以下命令以克隆Story-Adapter项目代码: git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹,包含项目的所有代码。 安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型 在下载模型,请提前准备好网络(你应该懂的什么是网络吧)。 按照官方的指引来下载对应的模型,及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
       AI  
  • 本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇) 2025-02-03 20:26:43 +0800 +0800
    本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇) 当你在看到文章标题,以及发布时间时,想必你是不会继续浏览下去的,这一点,是可以理解的,换做是我,也会做出同样的抉择。 既然如此,而又为什么又要写这篇文章呢? 其一,之所以没能在Stable Diffusion3.5发布时,在本地电脑部署它,那是因为彼时的老破电脑是不足以安装它的。 其二,赤巨资购买了可以把玩Machine Learning的高配电脑,这才想要在新电脑中部署Stable Diffusion3.5这个文生图大模型,故此,将本地部署过程记录下。 模型大小的区别 Stable Diffusion3.5发布三个不同参数的模型,分别是Medium、Large Turbo、Large。 Stable Diffusion 3.5 Large:该基础型号拥有 80 亿个参数,质量卓越,响应迅速,是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。 稳定扩散 3.5 Large Turbo:稳定扩散 3.5 Large 的精简版仅需 4 个步骤即可生成高质量图像,且具有出色的快速依从性,速度比稳定扩散 3.5 Large 快得多。 Stable Diffusion 3.5 Medium: 该模型拥有 25 亿个参数,采用改进的 MMDiT-X 架构和训练方法,可在消费级硬件上“开箱即用”,在质量和定制易用性之间取得平衡。它能够生成分辨率在 0.25 到 2 百万像素之间的图像。 可以从Hugging Face下载 Stable Diffusion 3.5 Large 【点击下载】 推荐16G以上显存 Stable Diffusion 3.5 Large Turbo 【点击下载】 推荐8G以上显存 安装 下载最新 ComfyUI 我们可以在github.com下载ComfyUI官方打包版,ComfyUI v0.3.13 当然咯,你也是可以下载源码,进行编译。 下载适合自己电脑显存的模型 在Huggingface.co下载Stable Diffusion3.
       AI