一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

累计撰写 166 篇文章
累计创建 364 个标签
累计创建 50 个分类

阿里QwQ-32B本地部署指南：用Ollama轻松运行320亿参数大模型

于 2025-03-13 发表条评论次阅读

收录于 AI

在本地电脑硬件条件有限情况下，只能部署些参数小点的模型，虽然很多平台也提供了免登录，可以在线把玩满血版的DeepSeek。

可我们总是寄望于国内外的这些大厂，能够训练出一个参数小点，且又能比肩DeepSeek满血版。

这不，阿里推出了一款可以媲美DeepSeek满血版（671B）的小参数模型——QwQ-32B。

QwQ-32B一经发布，激起了千层浪，可谓是：QwQ-32B小钢炮撼动了DeepSeek满血版的“江湖地位”。

甭管是QwQ团队的测评结果，还是来自“民间”的吹捧。最终，我们总得自己亲身部署了，方知这款小钢炮是否真的能比肩DeepSeek满血版呢？

下载Ollama

访问Ollama官网下载Windows安装包
双击执行安装程序，保持默认配置（注意C盘空间）
验证安装：CMD输入 ollama -v 显示版本号即成功。

下载模型

访问QwQ-32B模型页

你得先设置好你的网络，否则是下载不下来的。

安装 page assist 浏览器扩展

首先，我对国内很多人把浏览器扩展说成了浏览器插件，这是错误的，真正的浏览器插件是什么？那是可以改变浏览器内核的一套组件，而不是只修改网页上的内容。

并且，google也都是叫extension（扩展），而插件（plugin）。

可能是我本地模型“串”了。

基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）

« 上一篇 2025-03-10

文生音乐开源项目DiffRhythm，8G显存本地部署之Windows篇

下一篇 » 2025-03-15

基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）

2025-03-10 21:26:43 +0800 +0800

基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）在人工智能时代，语音合成（TTS）技术已成为人机交互的核心组件之一。然而，传统TTS系统长期受限于多阶段架构复杂、语音控制能力弱、跨语言表现差等问题。基于Qwen2.5大模型的**Spark-TTS**横空出世，凭借其创新的BiCodec编码技术、零样本语音克隆能力和细粒度语音控制，迅速成为开源社区的热点。技术突破：Spark-TTS的三大创新 1、BiCodec：重新定义语音编码 Spark-TTS首创BiCodec单流语音编码器，将语音分解为两类核心编码：语义Tokens：低比特率捕捉语言内容，确保信息的高效传输。全局Tokens：固定长度编码说话人属性（音色、性别、语调等）。这种设计简化了传统TTS的多模型协作流程，实现端到端生成，推理速度提升30%以上 2、零样本语音克隆：无需训练，秒级复刻仅需3秒参考音频，Spark-TTS即可生成高度相似的个性化语音，音色一致性（SIM）指标超越同类模型如LLaMA-TTS。其核心在于结合Qwen2.5的语言理解能力与BiCodec的解码精度，突破了传统TTS依赖大量训练数据的限制。 3、细粒度语音控制：从参数到情感的精准调节粗粒度：性别、情感风格一键切换。细粒度：音高、语速、停顿时长可逐句微调。用户甚至可通过文本描述生成虚拟音色（如“沉稳的中年男声，语速加快20%”），远超传统基于参考音频的模拟方式。功能实测：性能与效果全解析多语言与跨语种切换 Spark-TTS支持中英文无缝切换，无需单独训练语言模型。例如，输入混合文本“2025年Q1财报增长15%”，合成语音能自然处理数字与语言边界，避免传统TTS的机械断句问题。语音质量指标自然度（MOS）：评分>4.5（满分5），接近真人水平。重建质量：在STOI、PESQ等指标上超越VITS、FastSpeech2等主流模型。实时性（RTF）：单GPU推理速度达0.15秒/秒，满足实时交互需求。实战对比：与其他开源TTS的差异数据来源：公开评测与社区实测项目零样本克隆多语言支持细粒度控制推理速度 Spark-TTS ✅ 中英 ✅ 快 CosyVoice2 ✅ 中英 ❌ 中等 Fish-Speech ❌ 中英日 ❌ 慢本地部署那么接下来，我们将在本地电脑部署这款开源的文本转语音模型，看看效果是否真如官方所宣传的那般。我还是一如既往的使用python3自带的venv模块来创建python 虚拟环境，当然，你也是可以使用anaconda或着miniconda等软件来搭建python 虚拟环境。我本地电脑使用python的版本，始终是python 3.10.9，系统则是windows11。创建python虚拟环境 python -m venv Spark-TTS-env cd Spark-TTS-env/Scripts activate clone推理代码 Spark-TTS的推理代码托管于享誉全球的github.com上，倘若你的电脑安装了git，那么直接在Terminal中执行以下命令，便把Spark-TTS推理代码下载到你的电脑硬盘里。 git clone https://github.com/SparkAudio/Spark-TTS.git 安装项目所需的依赖 pip install -r requirements.txt 安装CUDA版的torch（可选）这一步是可选的，项目是可以通过CPU来推理的，也就是刚刚安装的torch是CPU版的，如果你想要使用GPU来加速推理，那么，就先卸载CPU版的torch，安装支持GPU的torch。

2025-03-10

AI

智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）

2025-03-07 21:26:43 +0800 +0800

智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）在文生图这个领域里，甭管是开源的Stable Diffusion 3.5，还是闭源的在线绘图平台Midjourney，一度都是不支持中文提示词。连prompt都不支持中文，就别提想要在图中写入中文。虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词，但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI（Zhipu AI）推出的文生图模型，通过结合文本与图像的跨模态生成技术，在中文场景下展现出显著优势。本地部署那么，接下来，我们就在本地电脑部署下CogView4-6B这款开源的绘画模型，看看效果是否真有其官方宣传的那么好。创建虚拟环境首先，我们创建个python虚拟环境，你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。我电脑使用的python版本为python 3.10.9，当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖其实，如果按照官方的，也就是执行以下这行命令，是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本，并不支持GPU，所以我们需要uninstall这个不带GPU版本的torch以及torchao。如果你电脑的显存低于12G的话，那么需要设置set MODE=1。然而，在Terminal下载torch的CUDA版本，下载速度总是那么不尽如人意。那么，我们可以直接去https://download.pytorch.org/whl/torch 下载对应的whl文件。我们直接在Terminal直接pip install torch-xxx.whl。卸载CPU版的torchao，安装带有CUDA版本的torchao。运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后，再次执行python inference/gradio_web_demo.py。会为我们自动在默认浏览器打开一个页签，如下图。我这里使用了官方的prompt，只是把Happy New Year改成了新春快乐，看看是不是能真正的写上中文字。为了出图快点，我只修改了图片的width和height，其他都是默认的，然而，生成的图片，图中的中文文字却崩了。

2025-03-07

AI

基于歌词生成整首歌的开源AI音乐模型，支持中、英、日、韩等多种语言，本地化部署YuE（windows篇）

2025-03-05 21:26:43 +0800 +0800

基于歌词生成整首歌的开源AI音乐模型，支持中、英、日、韩等多种语言，本地化部署YuE（windows篇）说起文生音乐，我们自然会想到suno.ai这个音乐生成式平台，它算是目前市面上音乐生成式比较好的AI项目，虽然它是闭源的。然而，一款由Multimodal Art Projection(M-A-P)（多模态艺术投影）团队与香港科技大学（HKUST）联合研发的YuE开源了，它是根据歌词生成整首歌的开源AI音乐模型。 YuE的开源，着实在开发者社区掀起了一阵热潮，但也给了AI浪潮中的文生音乐助推了不小波澜。 YuE 是一系列开创性的开源基础模型，专为音乐生成而设计，专门用于将歌词转换成完整的歌曲（lyrics2song）。它可以生成一首完整的歌曲，持续几分钟，包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。请访问演示页面，了解令人惊叹的声乐表演。概述 YuE项目地址：https://github.com/multimodal-art-projection/YuE 。按照官方描述： YuE 需要大量 GPU 来生成长序列。以下是推荐的配置：对于具有 24GB 或更少的 GPU：运行最多 2 个会话以避免内存不足 (OOM) 错误。对于完整的歌曲生成（许多会话，例如 4 个或更多）：使用具有至少 80GB 的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。要自定义会话数，界面允许您指定所需的会话数。默认情况下，模型运行 2 个会话（1 节 + 1 合唱）以避免 OOM 问题。在 H800 GPU 上，生成 30 秒的音频需要 150 秒。在 RTX 4090 GPU 上，生成 30 秒的音频大约需要 360 秒。社区提供了对于 GPU 资源有限的人，有 YuE-exllamav2 和 YuEGP。虽然两者都提高了生成速度和连贯性，但它们可能会损害音乐性。 YuEGP github地址：https://github.com/deepbeepmeep/YuEGP 。 YuE-exllamav2 github地址： https://github.com/sgsdxzy/YuE-exllamav2。

2025-03-05

AI

阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型

2025-03-01 21:26:43 +0800 +0800

阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型概述阿里云开源了其视频生成大模型Wan2.1（万相）,采用了较为宽松的Apache2.0协议。而这次对外了1.3B（极速版）和14B（专业版）两个参数规格的权重，及推理的全部代码。这两种模型均支持文生视频（T2V）和图生视频（I2V）任务。 14B版本在权威评测集VBench中以86.22%总分超越Sora、Luma等国内外模型；1.3B版本可在消费级显卡运行（仅需8.2GB显存生成480P视频），适合二次开发和研究。复杂运动生成：精准模拟人物旋转、跳跃、翻滚等动作，支持高级运镜控制物理规律建模：真实还原碰撞、反弹、切割等场景，符合现实物理规则中英文指令理解：支持长文本指令，实现场景切换、角色互动和多语言文字特效技术原理架构设计因果3D VAE：专为视频设计的变分自编码器，高效压缩时空信息并保持生成连贯性视频Diffusion Transformer（DiT）：结合扩散模型和Transformer，逐步去噪生成视频，捕捉长时程依赖关系分布式训练优化：采用DP、FSDP、RingAttention等混合并行策略，加速训练与推理性能提升技术引入插件式增强块（如Enhance-A-Video），通过跨帧注意力调节提升时序一致性，减少画面模糊和跳帧问题本地部署我电脑的环境： python：3.10.9 CUDA：12.4 windows11 我们还是一如既往的先创建python虚拟环境，我这里使用的是python3自带的venv来搭建虚拟环境，当然咯，你也是可以使用anaconda或miniconda来创建虚拟环境。 python -m venv Wan2.1-env cd Scripts activate 随后，我们clone万相的推理代码。 git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1 项目依赖库安装之后我们安装torch>=2.4.0，这是官方所要求的。 pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124 再者我们安装项目的requirements.txt依赖文件时，发现有flash-attention这个依赖，它可是可以加速推理的一个框架。然而，它对windows可并那么友好啊。但是flash-attention社区还是有人编译出了windows的wheel，也省的我们自己去编译了。为此，我特意将CUDA toolkit从12.1升级到12.4，关于这一点，是可以从我前几篇的文章看出来的。 https://github.com/kingbri1/flash-attention/releases 将下载下来的wheel直接通过pip install进行安装。 pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl 至此，我们再来执行以下命令，来完成安装项目所需的依赖库。 pip install -r requirements.txt 下载模型我们通过modelscope来下载模型。 pip install modelscope 我这里下载的是Wan-AI/Wan2.1-T2V-1.3B，若你要下载14B的模型，只需将1.3B换成14B即可（前提是你电脑的硬件环境允许的条件下）。 modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B 模型下载链接备注 T2V-14B 🤗 Huggingface 🤖 ModelScope 支持 480P 和 720P I2V-14B-720P 🤗 Huggingface 🤖 ModelScope 支持 720P I2V-14B-480P 🤗 Huggingface 🤖 ModelScope 支持 480P T2V-1.

2025-03-01

AI

互动式开源AI图像编辑神器，Windows11本地部署 MagicQuill

2025-02-25 22:26:43 +0800 +0800

互动式开源AI图像编辑神器，Windows11本地部署 MagicQuill 曾几何时，我们想要对图片进行PS，那可是难为了我们这般PS门外汉。然而，MagicQuill这款开源的图像元素修改，可算是解救了我们这些PS小白啊。那么，现在我们就可以在自己电脑部署这款开源的图像编辑神器。但想要在本地电脑部署这款开源的AI图像编辑神器，你的电脑显存要大于12G（虽然官方说是8G），预留硬盘空间在40G（模型就有30G），CUDA版本得在12.1或更高。创建 python 虚拟环境创建python虚拟环境是为了每个项目，库依赖各自隔离，不受影响。我电脑python使用的版本是3.10.9，使用python自带的venv来创建虚拟环境，当然咯，你也可以使用anaconda或miniconda来创建虚拟环境。随后，我们激活刚刚创建好的虚拟环境。 python -m venv MagicQuill-env cd MagicQuill-env/Scripts activate clone MagicQuil 项目代码 git clone --recursive https://github.com/magic-quill/MagicQuill.git cd MagicQuill 安装支持GPU的 torch 依赖至于版本，那是官方的READMD.md中提到的，使用了阿里云镜像，能加速torch在国内的下载。 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 -f https://mirrors.aliyun.com/pytorch-wheels/cu121 安装 MagicQuill 支持 gradio 依赖这个位于项目根路径下，我们直接pip install这个wheel文件即可。 pip install gradio_magicquill-0.0.1-py3-none-any.whl 安装 llava 依赖这个llava也是包含在项目中的。首先，我们需要将项目根路径下的pyproject.toml复制到MagicQuill\LLaVA\。随后，安装llava依赖。 copy /Y pyproject.toml MagicQuill\LLaVA\ pip install -e MagicQuill\LLaVA\ 7、安装项目必须依赖。安装项目必须依赖 pip install -r requirements.txt 下载模型模型大小总共29.9GB，所以电脑硬盘得预留出这么大的空间出来。国内可直接：https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1

2025-02-25

AI