一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

累计撰写 161 篇文章
累计创建 352 个标签
累计创建 47 个分类

语音识别之whisper本地部署（实时语音之开篇）

于 2025-03-25 发表条评论次阅读

收录于 AI

Whisper是由OpenAI开发的开源语音识别模型，以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练，覆盖100+语言，支持语音转录、翻译和语言检测，成为目前最通用的语音识别工具之一。

其核心优势在于：

端到端训练：直接处理原始音频输入，无需复杂预处理，输出包含标点符号的完整文本。
噪声鲁棒性：在嘈杂环境、方言口音场景下仍能保持高精度。
多任务能力：支持语音翻译（如中文转英文）、时间戳标注等复杂任务。

本地安装

我始终使用python3自带的venv来搭建python虚拟环境，当然咯，你也是可以使用anaconda或miniconda来构建python虚拟环境。

python -m venv whisper-env
cd whisper-env/Scripts
activate

随后，我们安装openai-whisper这个依赖库。

pip install -U openai-whisper

或者直接从github.com仓库获取最新的。

# 或从 GitHub 安装最新版本
pip install git+https://github.com/openai/whisper.git

我们可以看到，所安装的依赖库中包含了tiktoken，故而，就不需要在安装了。

虽然，whisper是可以通过CPU来推理的，但是在电脑设备具有GPU的情况，还是选择torch的CUDA版本。

pip uninstall torch
pip install torch --index-url https://download.pytorch.org/whl/cu124

之后，新建一个demo.py文件，写入以下脚本。

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.wav")
print(result["text"])

首次运行，会去下载模型，而我使用的是turbo，所以自动下载的便是large-v3-turbo。

如果自动下载失败了，那么就手动下载吧。

模型默认加载路径：C:\Users\你电脑的用户名\.cache\whisper

https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files

甭管是个人还是企业都能部署的Mistral-Small3.1，远超同级别的模型

« 上一篇 2025-03-19

阿里开源了端到端全模态大模型Qwen-2.5-Omini-7B之本地部署（windows篇）

下一篇 » 2025-03-28

甭管是个人还是企业都能部署的Mistral-Small3.1，远超同级别的模型

2025-03-19 22:06:43 +0800 +0800

甭管是个人还是企业都能部署的Mistral-Small3.1，远超同级别的模型这不Gemma3刚开源出来，立马炸裂了整个“科技界”，还没等它把“热度”持续火下去，Mistral-Small3.1却再次掀起了“科技界”的热度。 Mistral-Small3.1是Mistral AI推出的240亿参数开源多模态模型，基于Transformer架构优化设计，核心特性包括：多模态支持：支持文本与图像结合的任务处理，扩展了应用场景边界。 128k超长上下文窗口：可一次性处理长篇文档或复杂对话，显著优于前代的32k窗口。高效推理引擎：采用量化技术优化推理速度，每秒处理150个token，延迟低至毫秒级，适合实时交互场景。本地化部署能力：支持在RTX 4090显卡或32GB内存的Windows设备上运行，通过Ollama等工具实现轻量化部署. 通过Ollama部署那么，接下来，我们在本地通过Ollama来部署Mistral-Small3.1。如果你还没安装Ollama的话，那么，你可以去它的官网进行下载安装，Ollama官网。我这里选择了量化版，根据自己电脑的硬件设备来下载对应的量化版本。拷贝命令，直接黏贴到Terminal中。 ollama run MHKetbi/Mistral-Small3.1-24B-Instruct-2503:q6_K_L 主要特性和功能轻量级：Mistral Small 3.1 可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行。这使其非常适合设备上的使用情况。快速响应对话帮助：非常适合虚拟助手和其他需要快速、准确响应的应用程序。低延迟函数调用：能够在自动化或代理工作流程中快速执行函数针对专业领域进行微调：Mistral Small 3.1 可以针对特定领域进行微调，打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。高级推理的基础：社区在开放的 Mistral 模型之上构建模型的方式继续给留下深刻印象。仅在过去几周，就看到了几个基于 Mistral Small 3 构建的出色推理模型，例如Nous Research 的DeepHermes 24B。为此，发布了 Mistral Small 3.1 的基础和指令检查点，以便进一步对模型进行下游定制。如果你本地电脑硬件资源有限的话，那么是可以前往Mistral 官方平台上使用，上面是满血版【点击前往】

2025-03-19

AI

文生音乐开源项目DiffRhythm，8G显存本地部署之Windows篇

2025-03-15 22:06:43 +0800 +0800

文生音乐开源项目DiffRhythm，8G显存本地部署之Windows篇一、DiffRhythm：颠覆音乐创作的AI黑科技 DiffRhythm是由西北工业大学音频语音与语言处理实验室（ASLP@NPU）与香港中文大学（深圳）联合开发的开源音乐生成模型，其采用全扩散架构，能够在10秒内生成4分45秒的高质量双轨立体声音乐（包含人声与伴奏）。该模型以非自回归结构实现极速推理，支持纯文字风格描述生成音乐（如"Jazzy Nightclub Vibe"或"Arctic research station, theremin auroras"等创意场景），且最低仅需8GB显存即可本地部署。技术亮点：端到端生成：无需多阶段拼接，直接输出完整歌曲；句级歌词对齐：通过音素映射实现人声与歌词精准同步；压缩鲁棒VAE：支持从MP3等压缩格式还原无损音质；多模态输入：兼容文本提示、参考音频、歌词等多类型输入。本地部署我电脑依旧是使用python 3.10.9，而仍然使用python3自带的venv模块来搭建python 虚拟环境。当然咯，你也非得要跟我一样，你也可以使用python 3.11.X、python 3.12.x，用anaconda或miniconda来构建python 虚拟环境，这一点，并没有什么特定要求。创建python 虚拟环境你可以在电脑任一磁盘较为宽裕，来构建一个python 虚拟环境。下载DiffRhythm推理代码你得确保你的电脑安装好了git，否则的话，将无法通过以下命令进行clone DiffRhythm推理代码。至于这么安装git工具，就不在这里进行赘述了，毕竟我前几篇文章是有讲解过的。 git clone https://github.com/ASLP-lab/DiffRhythm.git cd DiffRhythm 安装espeak-ng DiffRhythm生成的音乐包含人声演唱的歌词，这需要将文本歌词转化为音素序列（如国际音标IPA），并精确映射到音频的时间轴上。eSpeak-NG作为开源音素合成引擎，在此环节发挥关键作用：音素解析：将用户输入的歌词（如中文、英文）转换为标准音素表示，例如中文你好 →/ni haʊ/，确保模型理解发音规则。发音规则库支持：eSpeak-NG内置100+语言的音素规则库，能够处理多语言歌词混合场景（如中英双语歌曲），避免发音错误。对齐算法依赖：DiffRhythm通过句子级对齐机制，将音素序列映射到潜在表示的特定位置，确保生成的歌声与歌词在时间轴上严格同步。eSpeak-NG提供底层音素时间戳数据支撑这一过程。我们直接下载espeak-NG官方编译好的安装包，https://github.com/espeak-ng/espeak-ng/releases。双击刚刚下载的espeak-ng.msi,一路Next下去就好了。还需将espeak-ng安装路径添加到PATH环境变量中。安装项目所需的依赖这一步是必不可少的，毕竟现代的项目都是集成项目，换句话说，一个大项目或多或少需要去集成优秀的框架及工具库等。 pip install -r requirements.txt 在国内，我们还是先设置一个国内镜像源，以便下载依赖库能够加快些，毕竟，pypi.org在国内访问起来真是一言难尽啊，就更别说再去pypi.org下载什么依赖库了。下载模型我们可以通过HuggingFace.co的国内镜像站hf-mirror.com进行下载模型。 DiffRhythm-base模型地址：https://hf-mirror.com/ASLP-lab/DiffRhythm-base/tree/main 我们仍然是通过git工具来下载模型，所以，你的电脑得提前安装好git，是很有必要的。 git clone https://hf-mirror.com/ASLP-lab/DiffRhythm-base ASLP-lab/DiffRhythm-base 运行python infer/infer.py 当模型下载完成了之后，这时，我们便可以通过以下命令，来生成音乐了。 python infer/infer.py --lrc-path infer/example/eg_cn.lrc --ref-audio-path infer/example/eg_cn.wav --audio-length 95 --repo_id ASLP-lab/DiffRhythm-base --output-dir infer/example/output --chunked 倘若，你运行了上述命令后，也出现了与下图一样的错误。

2025-03-15

AI

阿里QwQ-32B本地部署指南：用Ollama轻松运行320亿参数大模型

2025-03-13 20:26:43 +0800 +0800

阿里QwQ-32B本地部署指南：用Ollama轻松运行320亿参数大模型在本地电脑硬件条件有限情况下，只能部署些参数小点的模型，虽然很多平台也提供了免登录，可以在线把玩满血版的DeepSeek。可我们总是寄望于国内外的这些大厂，能够训练出一个参数小点，且又能比肩DeepSeek满血版。这不，阿里推出了一款可以媲美DeepSeek满血版（671B）的小参数模型——QwQ-32B。 QwQ-32B一经发布，激起了千层浪，可谓是：QwQ-32B小钢炮撼动了DeepSeek满血版的“江湖地位”。甭管是QwQ团队的测评结果，还是来自“民间”的吹捧。最终，我们总得自己亲身部署了，方知这款小钢炮是否真的能比肩DeepSeek满血版呢？下载Ollama 访问Ollama官网下载Windows安装包双击执行安装程序，保持默认配置（注意C盘空间）验证安装：CMD输入 ollama -v 显示版本号即成功。下载模型访问QwQ-32B模型页你得先设置好你的网络，否则是下载不下来的。安装 page assist 浏览器扩展首先，我对国内很多人把浏览器扩展说成了浏览器插件，这是错误的，真正的浏览器插件是什么？那是可以改变浏览器内核的一套组件，而不是只修改网页上的内容。并且，google也都是叫extension（扩展），而插件（plugin）。可能是我本地模型“串”了。

2025-03-13

AI

基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）

2025-03-10 21:26:43 +0800 +0800

基于Qwen2.5大模型的Spark-TTS，零样本语音克隆，CPU可运行之本地部署（Windows篇）在人工智能时代，语音合成（TTS）技术已成为人机交互的核心组件之一。然而，传统TTS系统长期受限于多阶段架构复杂、语音控制能力弱、跨语言表现差等问题。基于Qwen2.5大模型的**Spark-TTS**横空出世，凭借其创新的BiCodec编码技术、零样本语音克隆能力和细粒度语音控制，迅速成为开源社区的热点。技术突破：Spark-TTS的三大创新 1、BiCodec：重新定义语音编码 Spark-TTS首创BiCodec单流语音编码器，将语音分解为两类核心编码：语义Tokens：低比特率捕捉语言内容，确保信息的高效传输。全局Tokens：固定长度编码说话人属性（音色、性别、语调等）。这种设计简化了传统TTS的多模型协作流程，实现端到端生成，推理速度提升30%以上 2、零样本语音克隆：无需训练，秒级复刻仅需3秒参考音频，Spark-TTS即可生成高度相似的个性化语音，音色一致性（SIM）指标超越同类模型如LLaMA-TTS。其核心在于结合Qwen2.5的语言理解能力与BiCodec的解码精度，突破了传统TTS依赖大量训练数据的限制。 3、细粒度语音控制：从参数到情感的精准调节粗粒度：性别、情感风格一键切换。细粒度：音高、语速、停顿时长可逐句微调。用户甚至可通过文本描述生成虚拟音色（如“沉稳的中年男声，语速加快20%”），远超传统基于参考音频的模拟方式。功能实测：性能与效果全解析多语言与跨语种切换 Spark-TTS支持中英文无缝切换，无需单独训练语言模型。例如，输入混合文本“2025年Q1财报增长15%”，合成语音能自然处理数字与语言边界，避免传统TTS的机械断句问题。语音质量指标自然度（MOS）：评分>4.5（满分5），接近真人水平。重建质量：在STOI、PESQ等指标上超越VITS、FastSpeech2等主流模型。实时性（RTF）：单GPU推理速度达0.15秒/秒，满足实时交互需求。实战对比：与其他开源TTS的差异数据来源：公开评测与社区实测项目零样本克隆多语言支持细粒度控制推理速度 Spark-TTS ✅ 中英 ✅ 快 CosyVoice2 ✅ 中英 ❌ 中等 Fish-Speech ❌ 中英日 ❌ 慢本地部署那么接下来，我们将在本地电脑部署这款开源的文本转语音模型，看看效果是否真如官方所宣传的那般。我还是一如既往的使用python3自带的venv模块来创建python 虚拟环境，当然，你也是可以使用anaconda或着miniconda等软件来搭建python 虚拟环境。我本地电脑使用python的版本，始终是python 3.10.9，系统则是windows11。创建python虚拟环境 python -m venv Spark-TTS-env cd Spark-TTS-env/Scripts activate clone推理代码 Spark-TTS的推理代码托管于享誉全球的github.com上，倘若你的电脑安装了git，那么直接在Terminal中执行以下命令，便把Spark-TTS推理代码下载到你的电脑硬盘里。 git clone https://github.com/SparkAudio/Spark-TTS.git 安装项目所需的依赖 pip install -r requirements.txt 安装CUDA版的torch（可选）这一步是可选的，项目是可以通过CPU来推理的，也就是刚刚安装的torch是CPU版的，如果你想要使用GPU来加速推理，那么，就先卸载CPU版的torch，安装支持GPU的torch。

2025-03-10

AI

智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）

2025-03-07 21:26:43 +0800 +0800

智谱开源了文生图CogView4-6B模型，支持中文提示词之本地部署（Windows篇）在文生图这个领域里，甭管是开源的Stable Diffusion 3.5，还是闭源的在线绘图平台Midjourney，一度都是不支持中文提示词。连prompt都不支持中文，就别提想要在图中写入中文。虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词，但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI（Zhipu AI）推出的文生图模型，通过结合文本与图像的跨模态生成技术，在中文场景下展现出显著优势。本地部署那么，接下来，我们就在本地电脑部署下CogView4-6B这款开源的绘画模型，看看效果是否真有其官方宣传的那么好。创建虚拟环境首先，我们创建个python虚拟环境，你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。我电脑使用的python版本为python 3.10.9，当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖其实，如果按照官方的，也就是执行以下这行命令，是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本，并不支持GPU，所以我们需要uninstall这个不带GPU版本的torch以及torchao。如果你电脑的显存低于12G的话，那么需要设置set MODE=1。然而，在Terminal下载torch的CUDA版本，下载速度总是那么不尽如人意。那么，我们可以直接去https://download.pytorch.org/whl/torch 下载对应的whl文件。我们直接在Terminal直接pip install torch-xxx.whl。卸载CPU版的torchao，安装带有CUDA版本的torchao。运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后，再次执行python inference/gradio_web_demo.py。会为我们自动在默认浏览器打开一个页签，如下图。我这里使用了官方的prompt，只是把Happy New Year改成了新春快乐，看看是不是能真正的写上中文字。为了出图快点，我只修改了图片的width和height，其他都是默认的，然而，生成的图片，图中的中文文字却崩了。

2025-03-07

AI