首页
友情链接
点点滴滴
关于本站
秋码记录
一个游离于山间之上的Java爱好者 | A Java lover living in the mountains
累计撰写
158
篇文章
累计创建
346
个标签
累计创建
47
个分类
栏目
首页
友情链接
点点滴滴
关于本站
搜索
包含标签
OpenAI
阿里开源了端到端全模态大模型Qwen-2.5-Omini-7B之本地部署(windows篇)
阿里千问团队开源了到端全模态大模型Qwen-2.5-Omini-7B,一时之间,炸燃了AI界。 而这次千问团队开源的Qwen-2.5-Omini-7B,可谓是将看、听、读及写集于一身的全能型的大模型。 Thinker-Talker双核架构 Thinker模块:统一处理文本、图像、音频、视频输入,通过多模态编码器提取特征并生成语义理解结果。 Talker模块:基于双轨Transformer解码器,实时生成文本与自然语音响应,支持4种拟人化音色切换。 创新技术: TMRoPE时间对齐算法:实现音视频输入的毫秒级同步对齐,视频推理准确率提升3.1%。 FlashAttention-2加速:降低显存占用并提升推理速度,支持8K分辨率图像输入。 全模态统一处理能力 支持文本、图像、音频、视频的端到端输入与输出,无需分模块处理。 实测性能: OmniBench基准测试:综合得分56.13%,超越Gemini 1.5-Pro(42.91%)。 语音合成自然度:Seed-tts-eval评分0.88,接近人类水平。 本地部署 虽然官方给出了最小GPU内存需求,但如果我们不是去分析(Analysis)视频的话,还是在8G显存下把玩的,当然咯,也是可以使用量化版本。 精度 15(s) 音频 30(s) 音频 60(s) 音频 FP32 93.56 GB 不推荐 不推荐 BF16 31.11 GB 41.85 GB 60.19 GB pip uninstall transformers pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356 pip install accelerate 你得先创建python虚拟环境,可以使用anaconda或miniconda。而我始终使用的是python3自带的venv模块来构建python虚拟环境。 安装qwen-omni-utils这个工具类库。 pip install qwen-omni-utils 由于这个依赖默认安装的是CPU版的torch,所以,我们得先卸载它,而后安装CUDA版本的torch。 pip uninstall torch pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 我们身处国内,使用modelscope来下载模型,故而,需安装它。 pip install modelscope 推理模型 我们新建一个python文件,输入以下脚本,以实现语音识别的功能。 from qwen_omni_utils import process_mm_info import torch #from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor from modelscope import Qwen2_5OmniModel, Qwen2_5OmniProcessor from qwen_omni_utils import process_mm_info model_path = "Qwen/Qwen2.
2025-03-28
[AI]
语音识别之whisper本地部署(实时语音之开篇)
Whisper是由OpenAI开发的开源语音识别模型,以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练,覆盖100+语言,支持语音转录、翻译和语言检测,成为目前最通用的语音识别工具之一。 其核心优势在于: 端到端训练:直接处理原始音频输入,无需复杂预处理,输出包含标点符号的完整文本。 噪声鲁棒性:在嘈杂环境、方言口音场景下仍能保持高精度。 多任务能力:支持语音翻译(如中文转英文)、时间戳标注等复杂任务。 本地安装 我始终使用python3自带的venv来搭建python虚拟环境,当然咯,你也是可以使用anaconda或miniconda来构建python虚拟环境。 python -m venv whisper-env cd whisper-env/Scripts activate 随后,我们安装openai-whisper这个依赖库。 pip install -U openai-whisper 或者直接从github.com仓库获取最新的。 # 或从 GitHub 安装最新版本 pip install git+https://github.com/openai/whisper.git 我们可以看到,所安装的依赖库中包含了tiktoken,故而,就不需要在安装了。 虽然,whisper是可以通过CPU来推理的,但是在电脑设备具有GPU的情况,还是选择torch的CUDA版本。 pip uninstall torch pip install torch --index-url https://download.pytorch.org/whl/cu124 之后,新建一个demo.py文件,写入以下脚本。 import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.wav") print(result["text"]) 首次运行,会去下载模型,而我使用的是turbo,所以自动下载的便是large-v3-turbo。 如果自动下载失败了,那么就手动下载吧。 模型默认加载路径:C:\Users\你电脑的用户名\.cache\whisper https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files
2025-03-25
[AI]