AI

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

累计撰写 166 篇文章
累计创建 364 个标签
累计创建 50 个分类

分类 AI

Flux2 刚开源就凉了？Z-Image 本地部署狠狠打了个样过去一周，AI 生图圈发生了两件颇具戏剧性的事情： 1️⃣ Flux2 开源了，号称第二代旗舰文生图模型。 2️⃣ Z-Image bf16 量化版悄然支持 Windows 本地部署。结果很明显—— Flux2 开源了，社区反应平淡； Z-Image 本地部署了，几乎全网惊呼：“这是普通人能跑的旗舰模型！” 🧊 一、Flux2：开源了，却离普通用户太远 Flux2 由原 Flux 团队开发，本身技术能力不容置疑，但其开源策略与用户实际能力产生了巨大的落差：显存要求：最低 48GB，旗舰配置 80GB 本地部署成本：Linux + 高端 GPU + 一堆依赖出图速度：即使在 48GB 显卡上，单张也可能耗时 10–60 秒对绝大多数普通创作者来说： “你开源得再好，我也跑不动。” 社区吐槽如潮： “开源个寂寞” “我连下载都点了，但我知道我跑不动” “这不是给用户开源，这是给科研实验室开源” 一句话总结：Flux2 开源了，但没人能真正用起来。 🔥 二、Z-Image bf16：企业实力 + 技术优化，让本地生图触手可及与此同时，另一边出现了一个实力派选手： Z-Image bf16 本地量化版，由 Alibaba.com 集团旗下 Tongyi Labs 开发，依托企业级技术与科研实力，通过 bf16 量化优化模型大小和显存占用，实现 Windows 本地 16GB 显卡可用。当我们第一次在 RTX 4060 上部署成功时，显存监控跳出： 12.7GB
- 2025-11-29
[AI]
声音的未来：Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导在开源 TTS（文本转语音）界，情感控制一直是科研与实际应用追求的目标。然而，当 Resemble AI 提出的 Chatterbox 宣称自己是「第一个支持情感夸张控制的开源 TTS 模型」时，我们该如何审视这项说法的准确性，又该如何展现它真正的创新所在？一、情感控制：开源 TTS 项目的竞争图谱实际上，在 Chatterbox 之前，已有多个开源项目在“情感控制”层面做出了重要探索： EmoSphere-TTS（INTERSPEECH 2024 官方实现）通过在三维情感空间（arousal, valence, dominance）基础上引入“球面情感向量”，支持连续的情绪风格 + 强度控制，精细度和自然表现力都值得称道。GitHubarXiv EmotiVoice（网易有道，2024）提供离线开源引擎，支持中文和英文，可使用情绪标签（如“开心”“激动”“悲伤”“愤怒”）控制语调与情绪表达。GitHub 其他探索类工具和基础组件包含 Coqui TTS、ESPnet TTS、Mozilla TTS 等框架，它们支持通过调节音高、音量、速度等参数来生成情绪化语音。Reddit 最新研究成果包括 EmoVoice（LLM + 自然语言情绪提示控制）、EmoSteer-TTS（训练自由的激活引导方式）、EmoMix（情绪混合与强度调控）、EmoKnob（克隆 + 情绪细致调控）等研究，为开源情感 TTS 系带来更多可能。arXiv+3arXiv+3arXiv+3 结论：Chatterbox 并非历史上第一个拥有情感控制能力的开源 TTS。但它的情绪“夸张度”滑块是一种独特且易用的控制方式。二、Chatterbox 的真正卖点：更直观、更生产力 1. 「情感夸张度（emotion exaggeration）旋钮」 Chatterbox 将复杂的情绪表现提取为一个用户可调节的单参数滑块，从「冷静」到「夸张」，让用户更容易定制。（官网与 README 均强调该功能）GitHubchatterbox.run 2. 面向生产的用户体验安装简便：支持 pip，一行代码启动。实时化：延迟低于 200ms，适合在线服务、互动式应用。Resemble AIchatterbox.run 3. 零样本语音克隆 + 多语言支持支持仅用少量参考音进行克隆，无需训练即可生成个性化声音。官方页面提及支持“23+”语言，让它更适配全球多语内容生成。Resemble AI 4. 水印保障：PerTh 隐形音频水印嵌入人耳不易察觉但可精确检测的水印，支持追责与内容溯源，即使经过压缩剪辑也能识别。chatterbox.
- 2025-09-04
[AI]
还以为那只是换个背景？Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事阿里巴巴通义千问团队发布并开源了 Qwen-Image-Edit 图像编辑大模型，它是基于 20B 的 Qwen-Image 模型进一步训练，成功将 Qwen-Image 的文本渲染特色能力拓展到编辑任务上，以支持精准的文字编辑。此外，Qwen-Image-Edit 将输入图像同时输入到 Qwen2.5-VL（获取视觉语义控制）和 VAE Encoder（获得视觉外观控制），以同时获得语义/外观双重编辑能力。精准文字编辑: Qwen-Image-Edit 支持中英双语文字编辑，可以在保留文字大小/字体/风格的前提下，直接编辑图片中文字，进行增删改。语义/外观双重编辑: Qwen-Image-Edit 不仅支持 low-level 的视觉外观编辑（例如风格迁移，增删改等），也支持 high-level 的视觉语义编辑（例如 IP 制作，物体旋转等）强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image-Edit 在编辑任务中均获得 SOTA，是一个强大的图像生成基础模型。下载模型对于国内的朋友，可以在国内镜像下载 Qwen-Image-Edit 模型： https://hf-mirror.com/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_models LoRA Qwen-Image-Lightning-4steps-V1.0.safetensors Text encoder qwen_2.5_vl_7b_fp8_scaled.safetensors VAE qwen_image_vae.safetensors 等以上模型都下载完成后，按以下存放路径，拖入到 Comfyui 对应的文件夹内。 📂 ComfyUI/ ├── 📂 models/ │ ├── 📂 diffusion_models/ │ │ └── qwen_image_edit_fp8_e4m3fn.safetensors │ ├── 📂 loras/ │ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors │ ├── 📂 vae/ │ │ └── qwen_image_vae.
- 2025-08-20
[AI]
Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型引言曾几何时，当 Stable Diffusion 文生图开源后，输入一段文本便能生成图片，而惊艳之时。能否在图片写入中文，而不再是乱码，苦求各种解决方案，而不得其一二，多半还是那么强差人意。然而，阿里巴巴千问团队震撼开源的 Qwen-Image ，这款模型不仅精准渲染中文文本，还能智能编辑图像，堪称AI绘画界的"全能选手"！那么，接下来，就和我一起在 Windows下基于最新版的 ComfyUI ，来部署 Qwen-Image 工作流。安装 ComfyUI 或更新它若你还没安装过 ComfyUI，那么你可以先进入 ComfyUI 官网，下载它。 ComfyUI 官网地址：https://www.comfy.org/zh-cn/ 假使你跟我一样，之前在电脑下载过 ComfyUI，那么，只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。下载模型目前，千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。 https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models 下载好这个量化模型，还需下载编码器和 VAE。 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 下载好了这些模型，移动到对应的文件夹。启动 ComfyUI 加载工作流，使用示例提示词生成图片在 ComfyUI根目录下，双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口（ Terminal），稍待几秒后，它会自动打开你电脑默认浏览器，在一个新页签下展示 ComfyUI 的界面。之后，将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里，即可展现在你面前的便是 Qwen-Image 工作流了。写入 Qwen-Image 官方提示词。宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子，里面摆放着发光的服务器机箱，门口两个侍卫守护者。右边有两家店铺，其中一家挂着“云计算”的牌子，一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕；另一家店铺挂着“云模型”的牌子，门口放着一个大酒缸，上面写着“千问”，一位老板娘正在往里面倒发光的代码溶液。虽然与官方给出的图片有些许出入，但这已经很不错了，至少在中文渲染上面，没有出现所谓的乱码。毕竟这是量化版本。 Qwen-Image官方示例提示词：https://qwenlm.github.io/blog/qwen-image/ Lora 模型加持若你想要生成 Lora 写实风格的图片，那么只需加载 Lora 模型即可。
- 2025-08-14
[AI]
从零样本到跨场景：Seed-VC语音转换技术的革命性突破引言：当声音克隆不再需要训练在传统语音转换技术中，用户往往需要数小时的录音数据和复杂的模型训练才能实现声音克隆。而2024年发布的Seed-VC（Speech-to-Speech Voice Conversion）技术打破了这一范式——它通过零样本学习（Zero-Shot Learning）实现即时声音克隆，仅需1-30秒的参考音频即可完成音色复制，甚至支持实时转换和歌声生成。这项技术不仅在学术界引发关注，更在娱乐、影视、教育等领域掀起应用浪潮。技术解析：Seed-VC的核心创新零样本学习的实现原理 Seed-VC基于上下文学习（Contextual Learning）和深度神经网络，通过以下流程完成声音克隆：特征提取：从源语音和目标语音中提取音高、音色、韵律等关键特征特征编码：利用XLSR或Whisper模型将声音编码为中间表示扩散模型生成：采用HiFT或BigVGAN声码器合成高质量语音波形，支持25-100步的扩散过程平衡速度与质量这种架构无需预训练特定音色模型，真正实现“即插即用” 突破性功能：实时与歌声转换 300ms实时处理：通过优化算法延迟和设备侧处理，支持在线会议、直播等场景的即时变声歌声合成黑科技：将说话语音转换为歌声时，保留原音色特征并自动调整音高，解决传统SVC技术中音色失真问题性能优势在客观评估中，Seed-VC在语音清晰度（PESQ 4.32）和相似度（SIM 0.89）上显著超越OpenVoice、CosyVoice等模型，甚至优于部分需训练的模型（如So-VITS 4.0）应用场景：声音的无限可能影视与娱乐为动画角色快速生成定制音色（如用30秒明星语音生成角色配音）直播中实时切换音色，创造虚拟主播的多样化声线音乐创作将未受过声乐训练者的语音转换为专业级歌声，支持半音调校以适配背景音乐案例演示：用户通过剪映分离背景音后，用Seed-VC将干声转换为数字人演唱版本教育与医疗语言学习中模拟不同口音发音，例如中文方言到标准普通话的即时转换。为失声患者复刻个性化语音，保留情感表达特征。实践指南：如何快速上手部署方式小白友好型：通过Hugging Face的Gradio网页界面直接上传音频开发者模式：命令行工具支持参数微调，如设置扩散步数（--diffusion-steps）控制生成质量。模型选择建议模型版本适用场景延迟参数量 seed-uvit-tat-xlsr-tiny 实时语音转换 <400ms 25M seed-uvit-whisper-base 高保真歌声合成 1-2s 200M 进阶技巧使用--semi-tone-shift调整音高适配歌曲调性开启auto-f0-adjust自动对齐说话与歌唱音高行业影响与未来展望 Seed-VC的出现标志着语音合成技术从“专用模型”向“通用基座”的转型。其自定义微调功能（每位说话人仅需1条语音）让个性化声音克隆门槛大幅降低。据预测，到2030年，语音转换市场将突破10亿美元，而零样本技术将成为主流。 Seed-VC不仅是一项技术突破，更是一场关于声音表达的革命。它让每个人都能低成本拥有“声音分身”，重新定义了创作、沟通与身份表达的边界。正如开发者所言：“我们的目标是让任何声音都能被自由塑造，就像文字一样。” 本地部署我依旧使用python3自带的venv模块来构建python虚拟环境。 python -m venv seed-vc-v2-env cd seed-vc-v2-env/Scripts activate 之后，我们克隆Seed-VC推理代码。 git clone https://github.com/Plachtaa/seed-vc.git 安装与你电脑CUDA版本匹配的torch。
- 2025-04-18
[AI]
大语音模型轻量化革命：MegaTTS3 如何重新定义文本生成语音的技术边界（windows篇）传统语音合成技术受限于高昂的数据需求和庞大的模型参数规模，难以实现个性化语音的实时生成。而字节跳动与浙江大学联合推出的 MegaTTS3，以其 0.45亿参数轻量级架构和零样本语音克隆能力，打破了这一僵局。作为首个完全开源的高效语音生成模型，MegaTTS3 不仅支持中英双语无缝切换，还能通过短短几秒的音频样本克隆音色，甚至灵活调整口音强度，堪称语音合成领域的“瑞士军刀” 架构解析：扩散模型与Transformer的协同创新 MegaTTS3 的核心架构融合了扩散模型（Diffusion Model）与 Transformer 的优势，通过模块化设计实现语音属性的精准解耦与控制。其技术亮点包括：多模态信息解耦内容、音色、韵律分离建模：借鉴前作Mega-TTS2的研究成果，MegaTTS3 将语音分解为内容（文本语义）、音色（说话人特征）和韵律（语调节奏）三个独立维度，并通过多参考音色编码器（MRTE）和韵律语言模型（PLM）分别优化，显著提升克隆语音的自然度。自回归时长模型（ADM）：动态捕捉语音节奏变化，确保长句合成的连贯性。轻量化扩散Transformer主干采用TTS Diffusion Transformer架构，仅0.45亿参数即可实现与数十亿参数模型相媲美的生成质量。通过混合专家（MoE）设计，模型仅激活部分参数，大幅降低推理资源消耗。高效训练策略基于38k小时中英文混合数据训练，结合轻量级监督微调（SFT）和直接偏好优化（DPO），在保证质量的同时提升训练效率。技术新亮点：不止于“克隆” 零样本语音克隆的突破仅需3-5秒的参考音频，即可实时生成与目标说话人音色高度相似的语音，无需微调。这一能力得益于其音色编码器的跨说话人泛化能力，支持从儿童到老人、不同语种的多样化音色捕捉。口音强度可控的语音生成用户可通过调节参数生成带有特定口音的语音（如“带粤语腔调的普通话”），为虚拟角色赋予地域特色或个性化表达。中英混合朗读与语音修复支持同一段文本中中英文自然切换，解决传统模型在双语混合场景下的生硬断句问题。同时，模型可自动修复含噪声或低质量的输入音频，提升鲁棒性。 CPU环境下的高效推理模型体积仅数百MB，支持在无GPU的本地设备（如普通PC或手机）上实时生成语音，打破硬件限制。本地部署首先我们得下载anaconda或miniconda这款用于python虚拟环境管理软件。也许，你有所纳闷，我一贯使用python3自带的venv模块来搭建python虚拟环境，可为什么这次却使用miniconda了呢？究其原因，是因为MegaTTS3依赖了pynini，而这个依赖库却对windows系统并不是那么的友好，换句话说，若使用python3自带的venv模块来构建的虚拟环境，大概率是安装不了pynini这个依赖库了。安装miniconda 在安装miniconda时，需将它的安装路径添加到环境变量（PATH）中。 clone MegaTTS3推理代码我们把MegaTTS3的推理代码给clone到本地。 https://github.com/bytedance/MegaTTS3 使用miniconda创建虚拟环境我们打开一个Terminal，输入以下命令来搭建一个用于MegaTTS3的虚拟环境： conda create -n megatts3-env 等它创建初始化成功后，我们继续输入以下命令来激活刚刚创建好的虚拟环境。 conda activate megatts3-env 安装依赖安装pynini==2.1.5 我们cd到刚刚clone MegaTTS3推理代码的目录下，安装pynini==2.1.5。安装 WeTextProcessing==1.0.3 这个依赖库就是MegaTTS3所必须的，而它又依赖了我们上面刚刚安装的pynini。这就是为什么使用venv模块创建的虚拟环境安装不了pynini依赖库的原因了，前提是在windows系统下噢。 pip install WeTextProcessing==1.0.3 安装MegaTTS3推理代码所需的依赖库在安装MegaTTS3推理代码的依赖库之前，我们得修改requirements.txt文件，将WeTextProcessing==1.0.41这一行给删除了，你问了，那就回答你，至于为什么删除它，那是我们刚刚不安装了吗！删除了WeTextProcessing==1.0.41这一行后，保存并关闭requirsments.txt文件。随后在Terminal输入以下命令： pip install -r requirements.txt 设置MegaTTS3虚拟环境的环境变量至于为什么要设置，若你这么问了，具体的我也回答不上来了，详情请浏览我的博客：秋码记录
- 2025-04-10
[AI]
竞赛级编程大模型OlympicCoder-7B之本地部署（Windows篇）一、核心定位与技术亮点竞赛级代码推理能力 OlympicCoder-7B 针对编程竞赛（如国际信息学奥林匹克竞赛 IOI）需求设计，通过 CodeForces-CoTs 数据集（包含 10 万高质量思维链样本）进行训练，覆盖 C++ 和 Python 语言的算法实现。该模型在 IOI 挑战赛中表现出色，生成代码的通过率和效率显著优于同规模模型。真实竞赛场景优化模型模拟了竞赛中的提交策略优化机制，例如在严格的时限内生成代码并通过测试用例验证，确保生成结果的正确性和效率。其训练数据整合了 CodeForces、DeepMind CodeContests 等竞赛平台的问题及官方解题思路，强化了算法逻辑的精准性。轻量化与高效部署作为 7B 参数量的模型，OlympicCoder-7B 在保证性能的同时降低了硬件门槛，可在消费级 GPU 上运行，适合开发者和教育机构本地化部署。量化版本（如 Q4_K_M）内存占用仅约 5GB，生成速度可达 45 tokens/s 。二、性能对比与实测表现算法竞赛任务在 CodeForces 和 IOI 题型测试中，OlympicCoder-7B 的代码生成准确率接近 32B 版本（如 OlympicCoder-32B），且在贪吃蛇游戏等复杂编程任务中生成代码的可执行性显著优于同规模模型。跨模型对比与同属代码生成领域的 aiXcoder-7B（北大开源）相比，OlympicCoder-7B 在竞赛题目上的表现更优，但 aiXcoder 在长上下文补全（支持 32k 上下文）和企业级开发场景中更具优势。而与 Magicoder-7B（UIUC/清华联合开发）相比，OlympicCoder 更专注于算法优化而非通用代码生成。三、应用场景与局限性适用场景算法竞赛训练：为选手提供代码思路和解题参考。编程教育工具：辅助学生理解复杂算法实现逻辑。自动化评测系统：生成测试用例或验证代码正确性。局限性领域专注性：在通用软件开发场景（如 Web 开发）中表现不及专用模型。数据时效性：需定期更新竞赛题库以保持模型对最新题型的适应能力。四、本地部署首先，我们使用python3自带的venv模块来搭建python 虚拟环境。当然，你也可以使用anaconda或者miniconda来构建python 虚拟环境。
- 2025-04-01
[AI]
阿里开源了端到端全模态大模型Qwen-2.5-Omini-7B之本地部署（windows篇）阿里千问团队开源了到端全模态大模型Qwen-2.5-Omini-7B，一时之间，炸燃了AI界。而这次千问团队开源的Qwen-2.5-Omini-7B，可谓是将看、听、读及写集于一身的全能型的大模型。 Thinker-Talker双核架构 Thinker模块：统一处理文本、图像、音频、视频输入，通过多模态编码器提取特征并生成语义理解结果。 Talker模块：基于双轨Transformer解码器，实时生成文本与自然语音响应，支持4种拟人化音色切换。创新技术： TMRoPE时间对齐算法：实现音视频输入的毫秒级同步对齐，视频推理准确率提升3.1%。 FlashAttention-2加速：降低显存占用并提升推理速度，支持8K分辨率图像输入。全模态统一处理能力支持文本、图像、音频、视频的端到端输入与输出，无需分模块处理。实测性能： OmniBench基准测试：综合得分56.13%，超越Gemini 1.5-Pro（42.91%）。语音合成自然度：Seed-tts-eval评分0.88，接近人类水平。本地部署虽然官方给出了最小GPU内存需求，但如果我们不是去分析（Analysis）视频的话，还是在8G显存下把玩的，当然咯，也是可以使用量化版本。精度 15(s) 音频 30(s) 音频 60(s) 音频 FP32 93.56 GB 不推荐不推荐 BF16 31.11 GB 41.85 GB 60.19 GB pip uninstall transformers pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356 pip install accelerate 你得先创建python虚拟环境，可以使用anaconda或miniconda。而我始终使用的是python3自带的venv模块来构建python虚拟环境。安装qwen-omni-utils这个工具类库。 pip install qwen-omni-utils 由于这个依赖默认安装的是CPU版的torch，所以，我们得先卸载它，而后安装CUDA版本的torch。 pip uninstall torch pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 我们身处国内，使用modelscope来下载模型，故而，需安装它。 pip install modelscope 推理模型我们新建一个python文件，输入以下脚本，以实现语音识别的功能。 from qwen_omni_utils import process_mm_info import torch #from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor from modelscope import Qwen2_5OmniModel, Qwen2_5OmniProcessor from qwen_omni_utils import process_mm_info model_path = "Qwen/Qwen2.
- 2025-03-28
[AI]
语音识别之whisper本地部署（实时语音之开篇） Whisper是由OpenAI开发的开源语音识别模型，以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练，覆盖100+语言，支持语音转录、翻译和语言检测，成为目前最通用的语音识别工具之一。其核心优势在于：端到端训练：直接处理原始音频输入，无需复杂预处理，输出包含标点符号的完整文本。噪声鲁棒性：在嘈杂环境、方言口音场景下仍能保持高精度。多任务能力：支持语音翻译（如中文转英文）、时间戳标注等复杂任务。本地安装我始终使用python3自带的venv来搭建python虚拟环境，当然咯，你也是可以使用anaconda或miniconda来构建python虚拟环境。 python -m venv whisper-env cd whisper-env/Scripts activate 随后，我们安装openai-whisper这个依赖库。 pip install -U openai-whisper 或者直接从github.com仓库获取最新的。 # 或从 GitHub 安装最新版本 pip install git+https://github.com/openai/whisper.git 我们可以看到，所安装的依赖库中包含了tiktoken，故而，就不需要在安装了。虽然，whisper是可以通过CPU来推理的，但是在电脑设备具有GPU的情况，还是选择torch的CUDA版本。 pip uninstall torch pip install torch --index-url https://download.pytorch.org/whl/cu124 之后，新建一个demo.py文件，写入以下脚本。 import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.wav") print(result["text"]) 首次运行，会去下载模型，而我使用的是turbo，所以自动下载的便是large-v3-turbo。如果自动下载失败了，那么就手动下载吧。模型默认加载路径：C:\Users\你电脑的用户名\.cache\whisper https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files
- 2025-03-25
[AI]
甭管是个人还是企业都能部署的Mistral-Small3.1，远超同级别的模型这不Gemma3刚开源出来，立马炸裂了整个“科技界”，还没等它把“热度”持续火下去，Mistral-Small3.1却再次掀起了“科技界”的热度。 Mistral-Small3.1是Mistral AI推出的240亿参数开源多模态模型，基于Transformer架构优化设计，核心特性包括：多模态支持：支持文本与图像结合的任务处理，扩展了应用场景边界。 128k超长上下文窗口：可一次性处理长篇文档或复杂对话，显著优于前代的32k窗口。高效推理引擎：采用量化技术优化推理速度，每秒处理150个token，延迟低至毫秒级，适合实时交互场景。本地化部署能力：支持在RTX 4090显卡或32GB内存的Windows设备上运行，通过Ollama等工具实现轻量化部署. 通过Ollama部署那么，接下来，我们在本地通过Ollama来部署Mistral-Small3.1。如果你还没安装Ollama的话，那么，你可以去它的官网进行下载安装，Ollama官网。我这里选择了量化版，根据自己电脑的硬件设备来下载对应的量化版本。拷贝命令，直接黏贴到Terminal中。 ollama run MHKetbi/Mistral-Small3.1-24B-Instruct-2503:q6_K_L 主要特性和功能轻量级：Mistral Small 3.1 可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行。这使其非常适合设备上的使用情况。快速响应对话帮助：非常适合虚拟助手和其他需要快速、准确响应的应用程序。低延迟函数调用：能够在自动化或代理工作流程中快速执行函数针对专业领域进行微调：Mistral Small 3.1 可以针对特定领域进行微调，打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。高级推理的基础：社区在开放的 Mistral 模型之上构建模型的方式继续给留下深刻印象。仅在过去几周，就看到了几个基于 Mistral Small 3 构建的出色推理模型，例如Nous Research 的DeepHermes 24B。为此，发布了 Mistral Small 3.1 的基础和指令检查点，以便进一步对模型进行下游定制。如果你本地电脑硬件资源有限的话，那么是可以前往Mistral 官方平台上使用，上面是满血版【点击前往】
- 2025-03-19
[AI]
文生音乐开源项目DiffRhythm，8G显存本地部署之Windows篇一、DiffRhythm：颠覆音乐创作的AI黑科技 DiffRhythm是由西北工业大学音频语音与语言处理实验室（ASLP@NPU）与香港中文大学（深圳）联合开发的开源音乐生成模型，其采用全扩散架构，能够在10秒内生成4分45秒的高质量双轨立体声音乐（包含人声与伴奏）。该模型以非自回归结构实现极速推理，支持纯文字风格描述生成音乐（如"Jazzy Nightclub Vibe"或"Arctic research station, theremin auroras"等创意场景），且最低仅需8GB显存即可本地部署。技术亮点：端到端生成：无需多阶段拼接，直接输出完整歌曲；句级歌词对齐：通过音素映射实现人声与歌词精准同步；压缩鲁棒VAE：支持从MP3等压缩格式还原无损音质；多模态输入：兼容文本提示、参考音频、歌词等多类型输入。本地部署我电脑依旧是使用python 3.10.9，而仍然使用python3自带的venv模块来搭建python 虚拟环境。当然咯，你也非得要跟我一样，你也可以使用python 3.11.X、python 3.12.x，用anaconda或miniconda来构建python 虚拟环境，这一点，并没有什么特定要求。创建python 虚拟环境你可以在电脑任一磁盘较为宽裕，来构建一个python 虚拟环境。下载DiffRhythm推理代码你得确保你的电脑安装好了git，否则的话，将无法通过以下命令进行clone DiffRhythm推理代码。至于这么安装git工具，就不在这里进行赘述了，毕竟我前几篇文章是有讲解过的。 git clone https://github.com/ASLP-lab/DiffRhythm.git cd DiffRhythm 安装espeak-ng DiffRhythm生成的音乐包含人声演唱的歌词，这需要将文本歌词转化为音素序列（如国际音标IPA），并精确映射到音频的时间轴上。eSpeak-NG作为开源音素合成引擎，在此环节发挥关键作用：音素解析：将用户输入的歌词（如中文、英文）转换为标准音素表示，例如中文你好 →/ni haʊ/，确保模型理解发音规则。发音规则库支持：eSpeak-NG内置100+语言的音素规则库，能够处理多语言歌词混合场景（如中英双语歌曲），避免发音错误。对齐算法依赖：DiffRhythm通过句子级对齐机制，将音素序列映射到潜在表示的特定位置，确保生成的歌声与歌词在时间轴上严格同步。eSpeak-NG提供底层音素时间戳数据支撑这一过程。我们直接下载espeak-NG官方编译好的安装包，https://github.com/espeak-ng/espeak-ng/releases。双击刚刚下载的espeak-ng.msi,一路Next下去就好了。还需将espeak-ng安装路径添加到PATH环境变量中。安装项目所需的依赖这一步是必不可少的，毕竟现代的项目都是集成项目，换句话说，一个大项目或多或少需要去集成优秀的框架及工具库等。 pip install -r requirements.txt 在国内，我们还是先设置一个国内镜像源，以便下载依赖库能够加快些，毕竟，pypi.org在国内访问起来真是一言难尽啊，就更别说再去pypi.org下载什么依赖库了。下载模型我们可以通过HuggingFace.co的国内镜像站hf-mirror.com进行下载模型。 DiffRhythm-base模型地址：https://hf-mirror.com/ASLP-lab/DiffRhythm-base/tree/main 我们仍然是通过git工具来下载模型，所以，你的电脑得提前安装好git，是很有必要的。 git clone https://hf-mirror.com/ASLP-lab/DiffRhythm-base ASLP-lab/DiffRhythm-base 运行python infer/infer.py 当模型下载完成了之后，这时，我们便可以通过以下命令，来生成音乐了。 python infer/infer.py --lrc-path infer/example/eg_cn.lrc --ref-audio-path infer/example/eg_cn.wav --audio-length 95 --repo_id ASLP-lab/DiffRhythm-base --output-dir infer/example/output --chunked 倘若，你运行了上述命令后，也出现了与下图一样的错误。
- 2025-03-15
[AI]
阿里QwQ-32B本地部署指南：用Ollama轻松运行320亿参数大模型在本地电脑硬件条件有限情况下，只能部署些参数小点的模型，虽然很多平台也提供了免登录，可以在线把玩满血版的DeepSeek。可我们总是寄望于国内外的这些大厂，能够训练出一个参数小点，且又能比肩DeepSeek满血版。这不，阿里推出了一款可以媲美DeepSeek满血版（671B）的小参数模型——QwQ-32B。 QwQ-32B一经发布，激起了千层浪，可谓是：QwQ-32B小钢炮撼动了DeepSeek满血版的“江湖地位”。甭管是QwQ团队的测评结果，还是来自“民间”的吹捧。最终，我们总得自己亲身部署了，方知这款小钢炮是否真的能比肩DeepSeek满血版呢？下载Ollama 访问Ollama官网下载Windows安装包双击执行安装程序，保持默认配置（注意C盘空间）验证安装：CMD输入 ollama -v 显示版本号即成功。下载模型访问QwQ-32B模型页你得先设置好你的网络，否则是下载不下来的。安装 page assist 浏览器扩展首先，我对国内很多人把浏览器扩展说成了浏览器插件，这是错误的，真正的浏览器插件是什么？那是可以改变浏览器内核的一套组件，而不是只修改网页上的内容。并且，google也都是叫extension（扩展），而插件（plugin）。可能是我本地模型“串”了。
- 2025-03-13
[AI]
基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）在人工智能时代，语音合成（TTS）技术已成为人机交互的核心组件之一。然而，传统TTS系统长期受限于多阶段架构复杂、语音控制能力弱、跨语言表现差等问题。基于Qwen2.5大模型的**Spark-TTS**横空出世，凭借其创新的BiCodec编码技术、零样本语音克隆能力和细粒度语音控制，迅速成为开源社区的热点。技术突破：Spark-TTS的三大创新 1、BiCodec：重新定义语音编码 Spark-TTS首创BiCodec单流语音编码器，将语音分解为两类核心编码：语义Tokens：低比特率捕捉语言内容，确保信息的高效传输。全局Tokens：固定长度编码说话人属性（音色、性别、语调等）。这种设计简化了传统TTS的多模型协作流程，实现端到端生成，推理速度提升30%以上 2、零样本语音克隆：无需训练，秒级复刻仅需3秒参考音频，Spark-TTS即可生成高度相似的个性化语音，音色一致性（SIM）指标超越同类模型如LLaMA-TTS。其核心在于结合Qwen2.5的语言理解能力与BiCodec的解码精度，突破了传统TTS依赖大量训练数据的限制。 3、细粒度语音控制：从参数到情感的精准调节粗粒度：性别、情感风格一键切换。细粒度：音高、语速、停顿时长可逐句微调。用户甚至可通过文本描述生成虚拟音色（如“沉稳的中年男声，语速加快20%”），远超传统基于参考音频的模拟方式。功能实测：性能与效果全解析多语言与跨语种切换 Spark-TTS支持中英文无缝切换，无需单独训练语言模型。例如，输入混合文本“2025年Q1财报增长15%”，合成语音能自然处理数字与语言边界，避免传统TTS的机械断句问题。语音质量指标自然度（MOS）：评分>4.5（满分5），接近真人水平。重建质量：在STOI、PESQ等指标上超越VITS、FastSpeech2等主流模型。实时性（RTF）：单GPU推理速度达0.15秒/秒，满足实时交互需求。实战对比：与其他开源TTS的差异数据来源：公开评测与社区实测项目零样本克隆多语言支持细粒度控制推理速度 Spark-TTS ✅ 中英 ✅ 快 CosyVoice2 ✅ 中英 ❌ 中等 Fish-Speech ❌ 中英日 ❌ 慢本地部署那么接下来，我们将在本地电脑部署这款开源的文本转语音模型，看看效果是否真如官方所宣传的那般。我还是一如既往的使用python3自带的venv模块来创建python 虚拟环境，当然，你也是可以使用anaconda或着miniconda等软件来搭建python 虚拟环境。我本地电脑使用python的版本，始终是python 3.10.9，系统则是windows11。创建python虚拟环境 python -m venv Spark-TTS-env cd Spark-TTS-env/Scripts activate clone推理代码 Spark-TTS的推理代码托管于享誉全球的github.com上，倘若你的电脑安装了git，那么直接在Terminal中执行以下命令，便把Spark-TTS推理代码下载到你的电脑硬盘里。 git clone https://github.com/SparkAudio/Spark-TTS.git 安装项目所需的依赖 pip install -r requirements.txt 安装CUDA版的torch（可选）这一步是可选的，项目是可以通过CPU来推理的，也就是刚刚安装的torch是CPU版的，如果你想要使用GPU来加速推理，那么，就先卸载CPU版的torch，安装支持GPU的torch。
- 2025-03-10
[AI]
智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）在文生图这个领域里，甭管是开源的Stable Diffusion 3.5，还是闭源的在线绘图平台Midjourney，一度都是不支持中文提示词。连prompt都不支持中文，就别提想要在图中写入中文。虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词，但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI（Zhipu AI）推出的文生图模型，通过结合文本与图像的跨模态生成技术，在中文场景下展现出显著优势。本地部署那么，接下来，我们就在本地电脑部署下CogView4-6B这款开源的绘画模型，看看效果是否真有其官方宣传的那么好。创建虚拟环境首先，我们创建个python虚拟环境，你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。我电脑使用的python版本为python 3.10.9，当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖其实，如果按照官方的，也就是执行以下这行命令，是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本，并不支持GPU，所以我们需要uninstall这个不带GPU版本的torch以及torchao。如果你电脑的显存低于12G的话，那么需要设置set MODE=1。然而，在Terminal下载torch的CUDA版本，下载速度总是那么不尽如人意。那么，我们可以直接去https://download.pytorch.org/whl/torch 下载对应的whl文件。我们直接在Terminal直接pip install torch-xxx.whl。卸载CPU版的torchao，安装带有CUDA版本的torchao。运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后，再次执行python inference/gradio_web_demo.py。会为我们自动在默认浏览器打开一个页签，如下图。我这里使用了官方的prompt，只是把Happy New Year改成了新春快乐，看看是不是能真正的写上中文字。为了出图快点，我只修改了图片的width和height，其他都是默认的，然而，生成的图片，图中的中文文字却崩了。
- 2025-03-07
[AI]
基于歌词生成整首歌的开源AI音乐模型，支持中、英、日、韩等多种语言，本地化部署YuE（windows篇）说起文生音乐，我们自然会想到suno.ai这个音乐生成式平台，它算是目前市面上音乐生成式比较好的AI项目，虽然它是闭源的。然而，一款由Multimodal Art Projection(M-A-P)（多模态艺术投影）团队与香港科技大学（HKUST）联合研发的YuE开源了，它是根据歌词生成整首歌的开源AI音乐模型。 YuE的开源，着实在开发者社区掀起了一阵热潮，但也给了AI浪潮中的文生音乐助推了不小波澜。 YuE 是一系列开创性的开源基础模型，专为音乐生成而设计，专门用于将歌词转换成完整的歌曲（lyrics2song）。它可以生成一首完整的歌曲，持续几分钟，包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。请访问演示页面，了解令人惊叹的声乐表演。概述 YuE项目地址：https://github.com/multimodal-art-projection/YuE 。按照官方描述： YuE 需要大量 GPU 来生成长序列。以下是推荐的配置：对于具有 24GB 或更少的 GPU：运行最多 2 个会话以避免内存不足 (OOM) 错误。对于完整的歌曲生成（许多会话，例如 4 个或更多）：使用具有至少 80GB 的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。要自定义会话数，界面允许您指定所需的会话数。默认情况下，模型运行 2 个会话（1 节 + 1 合唱）以避免 OOM 问题。在 H800 GPU 上，生成 30 秒的音频需要 150 秒。在 RTX 4090 GPU 上，生成 30 秒的音频大约需要 360 秒。社区提供了对于 GPU 资源有限的人，有 YuE-exllamav2 和 YuEGP。虽然两者都提高了生成速度和连贯性，但它们可能会损害音乐性。 YuEGP github地址：https://github.com/deepbeepmeep/YuEGP 。 YuE-exllamav2 github地址： https://github.com/sgsdxzy/YuE-exllamav2。
- 2025-03-05
[AI]

1
2