首页
友情链接
点点滴滴
关于本站
秋码记录
一个游离于山间之上的Java爱好者 | A Java lover living in the mountains
累计撰写
154
篇文章
累计创建
340
个标签
累计创建
47
个分类
栏目
首页
友情链接
点点滴滴
关于本站
搜索
置顶
一套由 Hugo 驱动的博客主题 hugo-theme-kiwi 开源啦
自 秋码记录 没再为云服务器续费那会儿起,便选用了由Hugo驱动的博客主题,来迁移秋码记录 上的所有文章,然而,在众多Hugo博客主题之列,竟找不出一套属于自己想要的风格的主题,故而,也只能暂且套用了一个还算可以的博客主题。 那套没有秋码记录 博客风格的主题,终究是会被替换的,一切都只是时间问题。可没想到的是,暂时选用那套博客主题,竟然暂时了这么久,这一搁就是好几个月了。还记得,秋码记录 云服务器到期是在 6 月 20 日,那是一个盛夏的季节,可如今呢,却是一个寒冬腊月、冷风凌冽、大雪纷飞的残冬时节,我不禁感叹,时间真的过的好快啊!快的让人喘不过气来。 其实,一套拥有 秋码记录 风格的主题,早已在云服务器到期之际,便应运而生了,可为什么一直拖到现如今呢?想必这也是您想问的吧!拖本不是我的本意,奈何有其他事傍身,无暇他顾,故而一拖再拖,拖到这寒冬腊月,窝在室内,身披被子,势必也要写出它来。 hugo-theme-kiwi 名字的缘故 说出来不怕您笑话,我很喜欢吃猕猴桃(也可以叫奇异果),而kiwi便是奇异果的英文,所以就将这套具有 秋码记录 博客风格的主题称为 hugo-theme-kiwi了。 或许您会问,那为什么不叫qiyiguo或mihoutao,也不是不可以,只是个名称而已嘛!何必那么讲究呢!只要自己欢喜,那么起什么样的名称,又有什么关系呢!还管业内人士怎么说,说这个太 low了,然而,我们又何必去在乎那些所谓的”技术专家“呢!说这个不符合命名规范,我们不要去在意别人怎么说,人生苦短,何必将自己束缚的那么紧绷呢!我们应该摒弃掉人生当中的各种条条框框。 扯多了,还是回到为何将这套主题叫hugo-theme-kiwi呢?其实,起初,我本想将这套主题叫hugo-theme-qiucode,然而,这个想法也只在我脑中停留了几秒钟,像是一阵轻风拂过,吹乱了头发,然而,下一秒,我却及时的将头发捋好,仿佛那阵风并为吹过一般。 也许是因为qiucode比kiwi多了几个字符吧!但还是由于qiucode太过于局限了,总抵不过kiwi来得更加宽泛,没有专为某人而设计的主题! hugo-theme-kiwi目下拥有的功能 我们讲完了hugo-theme-kiwi名称的由来,我们也该聊聊它到底有哪些功能?当然,这些才是您浏览本文的最终目的,毕竟,一套好看的hugo主题总是那么吸引人,好比我们走在街上,忽然,迎面走来一位牵手高挑的美女,我想,那一刻,任一男人都会将目光迅速地移到那位美女身上的!当然咯,相貌与身材不及那位美女的其他女人(多是相貌平平),她们对那位美女瞬间把那条街所有男人的心给俘获了,心中难免怨恨,嘴角略微上扬,轻轻地一声“啧”,和那默契的翻白眼(或许,这才是女人与男人见到美女的所表现出的天然之别的情绪) hugo-theme-kiwi V0.01已实现如下功能: 1、首页文章列表展示,以文章缩略图和文章摘要显示(毕竟是图文内容嘛!总得给个文章缩略图吧!) 2、是列表,那它就需要分页,而这套主题摒弃了随着滚动条触底而加载下一页数据(让人感觉有种加载不完数据) 3、文章详情页,当然,与用户交互那是必须的,所以加入了评论,也就是您可以对某篇文章进行评论。 4、文章详情页右侧,自动识别出文章目录,点击目录可以快速到达您所感兴趣的目录下阅读,减少了您宝贵的时间。 5、友情链接,用于添加拥有个人博客网站链接,虽然你我身处天南地北,但能在此处以博客会友建立了(可以称为博友)“友情”。 6、右侧侧边栏,分类和标签各自跳转到各自的页面 还未实现的功能: 1、首页文章搜索 2、时间轴 3、右侧侧边栏,分类与标签跳转页面优化 …… 今夜是平安页,您吃了苹果了吗?我衷心的祝愿您和您家人一生平安,同时,我也祈愿我和我的家人以及我身边的人一生平安!
2023-12-24
[Hugo]
语音识别之whisper本地部署(实时语音之开篇)
Whisper是由OpenAI开发的开源语音识别模型,以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练,覆盖100+语言,支持语音转录、翻译和语言检测,成为目前最通用的语音识别工具之一。 其核心优势在于: 端到端训练:直接处理原始音频输入,无需复杂预处理,输出包含标点符号的完整文本。 噪声鲁棒性:在嘈杂环境、方言口音场景下仍能保持高精度。 多任务能力:支持语音翻译(如中文转英文)、时间戳标注等复杂任务。 本地安装 我始终使用python3自带的venv来搭建python虚拟环境,当然咯,你也是可以使用anaconda或miniconda来构建python虚拟环境。 python -m venv whisper-env cd whisper-env/Scripts activate 随后,我们安装openai-whisper这个依赖库。 pip install -U openai-whisper 或者直接从github.com仓库获取最新的。 # 或从 GitHub 安装最新版本 pip install git+https://github.com/openai/whisper.git 我们可以看到,所安装的依赖库中包含了tiktoken,故而,就不需要在安装了。 虽然,whisper是可以通过CPU来推理的,但是在电脑设备具有GPU的情况,还是选择torch的CUDA版本。 pip uninstall torch pip install torch --index-url https://download.pytorch.org/whl/cu124 之后,新建一个demo.py文件,写入以下脚本。 import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.wav") print(result["text"]) 首次运行,会去下载模型,而我使用的是turbo,所以自动下载的便是large-v3-turbo。 如果自动下载失败了,那么就手动下载吧。 模型默认加载路径:C:\Users\你电脑的用户名\.cache\whisper https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files
2025-03-25
[AI]
甭管是个人还是企业都能部署的Mistral-Small3.1,远超同级别的模型
这不Gemma3刚开源出来,立马炸裂了整个“科技界”,还没等它把“热度”持续火下去,Mistral-Small3.1却再次掀起了“科技界”的热度。 Mistral-Small3.1是Mistral AI推出的240亿参数开源多模态模型,基于Transformer架构优化设计,核心特性包括: 多模态支持:支持文本与图像结合的任务处理,扩展了应用场景边界。 128k超长上下文窗口:可一次性处理长篇文档或复杂对话,显著优于前代的32k窗口。 高效推理引擎:采用量化技术优化推理速度,每秒处理150个token,延迟低至毫秒级,适合实时交互场景。 本地化部署能力:支持在RTX 4090显卡或32GB内存的Windows设备上运行,通过Ollama等工具实现轻量化部署. 通过Ollama部署 那么,接下来,我们在本地通过Ollama来部署Mistral-Small3.1。 如果你还没安装Ollama的话,那么,你可以去它的官网进行下载安装,Ollama官网。 我这里选择了量化版,根据自己电脑的硬件设备来下载对应的量化版本。 拷贝命令,直接黏贴到Terminal中。 ollama run MHKetbi/Mistral-Small3.1-24B-Instruct-2503:q6_K_L 主要特性和功能 轻量级:Mistral Small 3.1 可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行。这使其非常适合设备上的使用情况。 快速响应对话帮助:非常适合虚拟助手和其他需要快速、准确响应的应用程序。 低延迟函数调用:能够在自动化或代理工作流程中快速执行函数 针对专业领域进行微调:Mistral Small 3.1 可以针对特定领域进行微调,打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。 高级推理的基础:社区在开放的 Mistral 模型之上构建模型的方式继续给留下深刻印象。仅在过去几周,就看到了几个基于 Mistral Small 3 构建的出色推理模型,例如Nous Research 的DeepHermes 24B。为此,发布了 Mistral Small 3.1 的基础和指令检查点,以便进一步对模型进行下游定制。 如果你本地电脑硬件资源有限的话,那么是可以前往Mistral 官方平台上使用,上面是满血版【点击前往】
2025-03-19
[AI]
文生音乐开源项目DiffRhythm,8G显存本地部署之Windows篇
一、DiffRhythm:颠覆音乐创作的AI黑科技 DiffRhythm是由西北工业大学音频语音与语言处理实验室(ASLP@NPU)与香港中文大学(深圳)联合开发的开源音乐生成模型,其采用全扩散架构,能够在10秒内生成4分45秒的高质量双轨立体声音乐(包含人声与伴奏) 。该模型以非自回归结构实现极速推理,支持纯文字风格描述生成音乐(如"Jazzy Nightclub Vibe"或"Arctic research station, theremin auroras"等创意场景) ,且最低仅需8GB显存即可本地部署。 技术亮点: 端到端生成:无需多阶段拼接,直接输出完整歌曲; 句级歌词对齐:通过音素映射实现人声与歌词精准同步; 压缩鲁棒VAE:支持从MP3等压缩格式还原无损音质; 多模态输入:兼容文本提示、参考音频、歌词等多类型输入。 本地部署 我电脑依旧是使用python 3.10.9,而仍然使用python3自带的venv模块来搭建python 虚拟环境。 当然咯,你也非得要跟我一样,你也可以使用python 3.11.X、python 3.12.x,用anaconda或miniconda来构建python 虚拟环境,这一点,并没有什么特定要求。 创建python 虚拟环境 你可以在电脑任一磁盘较为宽裕,来构建一个python 虚拟环境。 下载DiffRhythm推理代码 你得确保你的电脑安装好了git,否则的话,将无法通过以下命令进行clone DiffRhythm推理代码。 至于这么安装git工具,就不在这里进行赘述了,毕竟我前几篇文章是有讲解过的。 git clone https://github.com/ASLP-lab/DiffRhythm.git cd DiffRhythm 安装espeak-ng DiffRhythm生成的音乐包含人声演唱的歌词,这需要将文本歌词转化为音素序列(如国际音标IPA),并精确映射到音频的时间轴上。eSpeak-NG作为开源音素合成引擎,在此环节发挥关键作用: 音素解析:将用户输入的歌词(如中文、英文)转换为标准音素表示,例如中文你好 →/ni haʊ/,确保模型理解发音规则。 发音规则库支持:eSpeak-NG内置100+语言的音素规则库,能够处理多语言歌词混合场景(如中英双语歌曲),避免发音错误。 对齐算法依赖:DiffRhythm通过句子级对齐机制,将音素序列映射到潜在表示的特定位置,确保生成的歌声与歌词在时间轴上严格同步。eSpeak-NG提供底层音素时间戳数据支撑这一过程。 我们直接下载espeak-NG官方编译好的安装包,https://github.com/espeak-ng/espeak-ng/releases。 双击刚刚下载的espeak-ng.msi,一路Next下去就好了。 还需将espeak-ng安装路径添加到PATH环境变量中。 安装项目所需的依赖 这一步是必不可少的,毕竟现代的项目都是集成项目,换句话说,一个大项目或多或少需要去集成优秀的框架及工具库等。 pip install -r requirements.txt 在国内,我们还是先设置一个国内镜像源,以便下载依赖库能够加快些,毕竟,pypi.org在国内访问起来真是一言难尽啊,就更别说再去pypi.org下载什么依赖库了。 下载模型 我们可以通过HuggingFace.co的国内镜像站hf-mirror.com进行下载模型。 DiffRhythm-base模型地址:https://hf-mirror.com/ASLP-lab/DiffRhythm-base/tree/main 我们仍然是通过git工具来下载模型,所以,你的电脑得提前安装好git,是很有必要的。 git clone https://hf-mirror.com/ASLP-lab/DiffRhythm-base ASLP-lab/DiffRhythm-base 运行python infer/infer.py 当模型下载完成了之后,这时,我们便可以通过以下命令,来生成音乐了。 python infer/infer.py --lrc-path infer/example/eg_cn.lrc --ref-audio-path infer/example/eg_cn.wav --audio-length 95 --repo_id ASLP-lab/DiffRhythm-base --output-dir infer/example/output --chunked 倘若,你运行了上述命令后,也出现了与下图一样的错误。
2025-03-15
[AI]
阿里QwQ-32B本地部署指南:用Ollama轻松运行320亿参数大模型
在本地电脑硬件条件有限情况下,只能部署些参数小点的模型,虽然很多平台也提供了免登录,可以在线把玩满血版的DeepSeek。 可我们总是寄望于国内外的这些大厂,能够训练出一个参数小点,且又能比肩DeepSeek满血版。 这不,阿里推出了一款可以媲美DeepSeek满血版(671B)的小参数模型——QwQ-32B。 QwQ-32B一经发布,激起了千层浪,可谓是:QwQ-32B小钢炮撼动了DeepSeek满血版的“江湖地位”。 甭管是QwQ团队的测评结果,还是来自“民间”的吹捧。最终,我们总得自己亲身部署了,方知这款小钢炮是否真的能比肩DeepSeek满血版呢? 下载Ollama 访问Ollama官网下载Windows安装包 双击执行安装程序,保持默认配置(注意C盘空间) 验证安装:CMD输入 ollama -v 显示版本号即成功。 下载模型 访问QwQ-32B模型页 你得先设置好你的网络,否则是下载不下来的。 安装 page assist 浏览器扩展 首先,我对国内很多人把浏览器扩展说成了浏览器插件,这是错误的,真正的浏览器插件是什么?那是可以改变浏览器内核的一套组件,而不是只修改网页上的内容。 并且,google也都是叫extension(扩展),而插件(plugin)。 可能是我本地模型“串”了。
2025-03-13
[AI]
基于Qwen2.5大模型的Spark-TTS,零样本语音克隆,CPU可运行之本地部署(Windows篇)
在人工智能时代,语音合成(TTS)技术已成为人机交互的核心组件之一。然而,传统TTS系统长期受限于多阶段架构复杂、语音控制能力弱、跨语言表现差等问题。 基于Qwen2.5大模型的**Spark-TTS**横空出世,凭借其创新的BiCodec编码技术、零样本语音克隆能力和细粒度语音控制,迅速成为开源社区的热点。 技术突破:Spark-TTS的三大创新 1、BiCodec:重新定义语音编码 Spark-TTS首创BiCodec单流语音编码器,将语音分解为两类核心编码: 语义Tokens:低比特率捕捉语言内容,确保信息的高效传输。 全局Tokens:固定长度编码说话人属性(音色、性别、语调等)。 这种设计简化了传统TTS的多模型协作流程,实现端到端生成,推理速度提升30%以上 2、零样本语音克隆:无需训练,秒级复刻 仅需3秒参考音频,Spark-TTS即可生成高度相似的个性化语音,音色一致性(SIM)指标超越同类模型如LLaMA-TTS。其核心在于结合Qwen2.5的语言理解能力与BiCodec的解码精度,突破了传统TTS依赖大量训练数据的限制。 3、细粒度语音控制:从参数到情感的精准调节 粗粒度:性别、情感风格一键切换。 细粒度:音高、语速、停顿时长可逐句微调。 用户甚至可通过文本描述生成虚拟音色(如“沉稳的中年男声,语速加快20%”),远超传统基于参考音频的模拟方式。 功能实测:性能与效果全解析 多语言与跨语种切换 Spark-TTS支持中英文无缝切换,无需单独训练语言模型。例如,输入混合文本“2025年Q1财报增长15%”,合成语音能自然处理数字与语言边界,避免传统TTS的机械断句问题 。 语音质量指标 自然度(MOS):评分>4.5(满分5),接近真人水平。 重建质量:在STOI、PESQ等指标上超越VITS、FastSpeech2等主流模型。 实时性(RTF) :单GPU推理速度达0.15秒/秒,满足实时交互需求。 实战对比:与其他开源TTS的差异 数据来源:公开评测与社区实测 项目 零样本克隆 多语言支持 细粒度控制 推理速度 Spark-TTS ✅ 中英 ✅ 快 CosyVoice2 ✅ 中英 ❌ 中等 Fish-Speech ❌ 中英日 ❌ 慢 本地部署 那么接下来,我们将在本地电脑部署这款开源的文本转语音模型,看看效果是否真如官方所宣传的那般。 我还是一如既往的使用python3自带的venv模块来创建python 虚拟环境,当然,你也是可以使用anaconda或着miniconda等软件来搭建python 虚拟环境。 我本地电脑使用python的版本,始终是python 3.10.9,系统则是windows11。 创建python虚拟环境 python -m venv Spark-TTS-env cd Spark-TTS-env/Scripts activate clone推理代码 Spark-TTS的推理代码托管于享誉全球的github.com上,倘若你的电脑安装了git,那么直接在Terminal中执行以下命令,便把Spark-TTS推理代码下载到你的电脑硬盘里。 git clone https://github.com/SparkAudio/Spark-TTS.git 安装项目所需的依赖 pip install -r requirements.txt 安装CUDA版的torch(可选) 这一步是可选的,项目是可以通过CPU来推理的,也就是刚刚安装的torch是CPU版的,如果你想要使用GPU来加速推理,那么,就先卸载CPU版的torch,安装支持GPU的torch。
2025-03-10
[AI]
智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇)
在文生图这个领域里,甭管是开源的Stable Diffusion 3.5,还是闭源的在线绘图平台Midjourney,一度都是不支持中文提示词。 连prompt都不支持中文,就别提想要在图中写入中文。 虽然SD3.5、Midjourney等优秀绘画模型不支持中文提示词,但国内各大厂商一直致力于中文提示词。 CogView4-6B是智谱AI(Zhipu AI)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。 本地部署 那么,接下来,我们就在本地电脑部署下CogView4-6B这款开源的绘画模型,看看效果是否真有其官方宣传的那么好。 创建虚拟环境 首先,我们创建个python虚拟环境,你可以使用anaconda或miniconda来创建虚拟环境。我还是使用python3自带的venv模块搭建的虚拟环境。 我电脑使用的python版本为python 3.10.9,当然你也可以使用python 3.11。 python -m venv CogView4-env cd CogView4-env\Scripts activate clone 推理代码及下载模型 git clone https://github.com/THUDM/CogView4 cd CogView4 # 根据自身网络条件 选择以下任一方式来下载模型。 # modelscope git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git # Huggingface.co git clone https://huggingface.co/THUDM/CogView4-6B 安装项目所需依赖 其实,如果按照官方的,也就是执行以下这行命令,是无法启动项目的。 pip install -r inference/requirements.txt 按照requirements.txt的依赖来安装torch是CPU版本,并不支持GPU,所以我们需要uninstall这个不带GPU版本的torch以及torchao。 如果你电脑的显存低于12G的话,那么需要设置set MODE=1。 然而,在Terminal下载torch的CUDA版本,下载速度总是那么不尽如人意。 那么,我们可以直接去https://download.pytorch.org/whl/torch 下载 对应的whl文件。 我们直接在Terminal直接pip install torch-xxx.whl。 卸载CPU版的torchao,安装带有CUDA版本的torchao。 运行 inference/gradio_web_demo.py 当我们安装好了CUDA版的torch和torchao后,再次执行python inference/gradio_web_demo.py。 会为我们自动在默认浏览器打开一个页签,如下图。 我这里使用了官方的prompt,只是把Happy New Year改成了新春快乐,看看是不是能真正的写上中文字。 为了出图快点,我只修改了图片的width和height,其他都是默认的,然而,生成的图片,图中的中文文字却崩了。
2025-03-07
[AI]
基于歌词生成整首歌的开源AI音乐模型,支持中、英、日、韩等多种语言,本地化部署YuE(windows篇)
说起文生音乐,我们自然会想到suno.ai这个音乐生成式平台,它算是目前市面上音乐生成式比较好的AI项目,虽然它是闭源的。 然而,一款由Multimodal Art Projection(M-A-P)(多模态艺术投影)团队与香港科技大学(HKUST)联合研发的YuE开源了,它是根据歌词生成整首歌的开源AI音乐模型。 YuE的开源,着实在开发者社区掀起了一阵热潮,但也给了AI浪潮中的文生音乐助推了不小波澜。 YuE 是一系列开创性的开源基础模型,专为音乐生成而设计,专门用于将歌词转换成完整的歌曲(lyrics2song)。它可以生成一首完整的歌曲,持续几分钟,包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。请访问演示页面,了解令人惊叹的声乐表演。 概述 YuE项目地址:https://github.com/multimodal-art-projection/YuE 。 按照官方描述: YuE 需要大量 GPU 来生成长序列。以下是推荐的配置: 对于具有 24GB 或更少的 GPU:运行最多 2 个会话以避免内存不足 (OOM) 错误。 对于完整的歌曲生成(许多会话,例如 4 个或更多):使用具有至少 80GB 的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。 要自定义会话数,界面允许您指定所需的会话数。默认情况下,模型运行 2 个会话(1 节 + 1 合唱)以避免 OOM 问题。 在 H800 GPU 上,生成 30 秒的音频需要 150 秒。在 RTX 4090 GPU 上,生成 30 秒的音频大约需要 360 秒。 社区提供了对于 GPU 资源有限的人,有 YuE-exllamav2 和 YuEGP。虽然两者都提高了生成速度和连贯性,但它们可能会损害音乐性。 YuEGP github地址:https://github.com/deepbeepmeep/YuEGP 。 YuE-exllamav2 github地址: https://github.com/sgsdxzy/YuE-exllamav2。
2025-03-05
[AI]
阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型
概述 阿里云开源了其视频生成大模型Wan2.1(万相),采用了较为宽松的Apache2.0协议。 而这次对外了1.3B(极速版)和14B(专业版)两个参数规格的权重,及推理的全部代码。 这两种模型均支持文生视频(T2V)和图生视频(I2V)任务。 14B版本在权威评测集VBench中以86.22%总分超越Sora、Luma等国内外模型;1.3B版本可在消费级显卡运行(仅需8.2GB显存生成480P视频),适合二次开发和研究。 复杂运动生成:精准模拟人物旋转、跳跃、翻滚等动作,支持高级运镜控制 物理规律建模:真实还原碰撞、反弹、切割等场景,符合现实物理规则 中英文指令理解:支持长文本指令,实现场景切换、角色互动和多语言文字特效 技术原理 架构设计 因果3D VAE:专为视频设计的变分自编码器,高效压缩时空信息并保持生成连贯性 视频Diffusion Transformer(DiT):结合扩散模型和Transformer,逐步去噪生成视频,捕捉长时程依赖关系 分布式训练优化:采用DP、FSDP、RingAttention等混合并行策略,加速训练与推理 性能提升技术 引入插件式增强块(如Enhance-A-Video),通过跨帧注意力调节提升时序一致性,减少画面模糊和跳帧问题 本地部署 我电脑的环境: python:3.10.9 CUDA:12.4 windows11 我们还是一如既往的先创建python虚拟环境,我这里使用的是python3自带的venv来搭建虚拟环境,当然咯,你也是可以使用anaconda或miniconda来创建虚拟环境。 python -m venv Wan2.1-env cd Scripts activate 随后,我们clone万相的推理代码。 git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1 项目依赖库安装 之后我们安装torch>=2.4.0,这是官方所要求的。 pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124 再者我们安装项目的requirements.txt依赖文件时,发现有flash-attention这个依赖,它可是可以加速推理的一个框架。 然而,它对windows可并那么友好啊。但是flash-attention社区还是有人编译出了windows的wheel,也省的我们自己去编译了。 为此,我特意将CUDA toolkit从12.1升级到12.4,关于这一点,是可以从我前几篇的文章看出来的。 https://github.com/kingbri1/flash-attention/releases 将下载下来的wheel直接通过pip install进行安装。 pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl 至此,我们再来执行以下命令,来完成安装项目所需的依赖库。 pip install -r requirements.txt 下载模型 我们通过modelscope来下载模型。 pip install modelscope 我这里下载的是Wan-AI/Wan2.1-T2V-1.3B,若你要下载14B的模型,只需将1.3B换成14B即可(前提是你电脑的硬件环境允许的条件下)。 modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B 模型 下载链接 备注 T2V-14B 🤗 Huggingface 🤖 ModelScope 支持 480P 和 720P I2V-14B-720P 🤗 Huggingface 🤖 ModelScope 支持 720P I2V-14B-480P 🤗 Huggingface 🤖 ModelScope 支持 480P T2V-1.
2025-03-01
[AI]
互动式开源AI图像编辑神器,Windows11本地部署 MagicQuill
曾几何时,我们想要对图片进行PS,那可是难为了我们这般PS门外汉。 然而,MagicQuill这款开源的图像元素修改,可算是解救了我们这些PS小白啊。 那么,现在我们就可以在自己电脑部署这款开源的图像编辑神器。 但想要在本地电脑部署这款开源的AI图像编辑神器,你的电脑显存要大于12G(虽然官方说是8G),预留硬盘空间在40G(模型就有30G),CUDA版本得在12.1或更高。 创建 python 虚拟环境 创建python虚拟环境是为了每个项目,库依赖各自隔离,不受影响。 我电脑python使用的版本是3.10.9,使用python自带的venv来创建虚拟环境,当然咯,你也可以使用anaconda或miniconda来创建虚拟环境。 随后,我们激活刚刚创建好的虚拟环境。 python -m venv MagicQuill-env cd MagicQuill-env/Scripts activate clone MagicQuil 项目代码 git clone --recursive https://github.com/magic-quill/MagicQuill.git cd MagicQuill 安装支持GPU的 torch 依赖 至于版本,那是官方的READMD.md中提到的,使用了阿里云镜像,能加速torch在国内的下载。 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 -f https://mirrors.aliyun.com/pytorch-wheels/cu121 安装 MagicQuill 支持 gradio 依赖 这个位于项目根路径下,我们直接pip install这个wheel文件即可。 pip install gradio_magicquill-0.0.1-py3-none-any.whl 安装 llava 依赖 这个llava也是包含在项目中的。 首先,我们需要将项目根路径下的pyproject.toml复制到MagicQuill\LLaVA\。 随后,安装llava依赖。 copy /Y pyproject.toml MagicQuill\LLaVA\ pip install -e MagicQuill\LLaVA\ 7、安装项目必须依赖。 安装项目必须依赖 pip install -r requirements.txt 下载模型 模型大小总共29.9GB,所以电脑硬盘得预留出这么大的空间出来。 国内可直接:https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1
2025-02-25
[AI]
本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇)
Qwen2.5-VL是阿里云推出的开源多模态大模型,支持图像理解、视频分析、文档结构化处理等功能。 较上一个版本Qwen2-VL有质的飞越,Qwen2.5-VL通过动态分辨率适配和窗口注意力机制,显著降低显存占用并提升推理速度,72B模型在单卡A100上推理速度提升30% 。 身在AI这股浪潮中,只要本地电脑硬件条件允许的话,我都会尝试着去部署优秀的开源大模型。 说到开源大模型,相对而言的就是闭源大模型,我们在脑海中很自然地浮现出国外的OPENAI,以及国内的百度,也就是李彦宏所说的“开源大模型,对个人是没有好处”(好像是这么说的吧)。 由于DeepSeek的冲击,据说百度将要开源大模型了,这李彦宏不是妥妥的打了自己的脸了吗?很想隔空问李彦宏一句话,难道你的脸不痛吗? 克隆Qwen2.5-VL代码及安装必须依赖 git clone https://github.com/QwenLM/Qwen2.5-VL.git 使用Python3自带的venv库,创建虚拟环境。当然你也可以使用anaconda或miniconda工具进行创建python虚拟环境。 python -m venv qwen-vl-env cd qwen-vl-env\Script activate 之后回到Qwen2.5-VL代码的根路径下,进行必须依赖安装。 cd Qwen2.5-VL pip install -r requirements_web_demo.txt 当然,为了可以使用GPU来推理,还需安装与你的CUDA版本匹配的pytorch pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121 其实pytorch依赖是包含在requirements_web_demo.txt文件中,那是CPU版本的。 而对于windows用户来说,以下这步也是多余的。 pip install qwen-vl-utils 下载模型 Qwen2.5-VL开源三个不同参数的大模型,分别是3B、7B、72B。 Huggingface模型地址:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5 Modelscope魔塔社区:https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47 运行官方的gradio demo示例 可不知是什么原因,我运行python web_demo_mm.py却出现错误,报的错误都是与gradio相关的错误信息,致使我一度怀疑,是不是需要更新gradio的依赖呢。 然而,事与愿违,报错还是一如既往报错,它可不会因为你更新了gradio依赖,就停止报错了。 所以呢,我就运行官方不带gradio的示例,结果却成功,这让我异常兴奋。 import torch from modelscope import snapshot_download from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor from qwen_vl_utils import process_vision_info # default: Load the model on the available device(s) # model = Qwen2_5_VLForConditionalGeneration.
2025-02-23
[AI]
保持角色一致性的绘本生成AI开源项目之Story-Adapter本地部署Windows篇
在人工智能领域,生成一致且连贯的故事绘本一直是一个具有挑战性的任务。Story-Adapter作为一个开源项目,旨在解决这一问题,为用户提供无需训练即可生成长篇故事视觉化的工具。本文将指导您如何在Windows系统上本地部署并运行Story-Adapter。 项目简介 Story-Adapter项目提出了一种无需训练的迭代框架,用于长篇故事的可视化生成,特别关注在生成过程中保持角色的一致性。通过利用现有的文本到图像生成模型,Story-Adapter能够根据输入的故事文本,生成一系列连贯且一致的图像帧,适用于绘本创作、动画制作等领域。 项目地址:https://github.com/UCSC-VLAA/story-adapter 环境准备 从项目的README.md中有关于本地安装的必要条件: Python 3.10.14 PyTorch 2.2.2 CUDA 12.1 cuDNN 8.9.02 虽然官方是通过anaconda来创建python项目的虚拟环境,这也官方推荐的,可以说是所有开源AI 项目的友好方式。 然而我却不使用anaconda,而使用python自带创建虚拟环境的方式。 python -m venv story-adapter-env #创建 story-adapter-env 虚拟环境 cd story-adapter-env\Script activate #激活虚拟环境 1. 安装Python 前往Python官方网站下载适用于Windows的最新版本Python安装包。在安装过程中,务必勾选“Add Python to PATH”选项,以便在命令提示符中直接使用Python命令。 我安装的是python 3.10.9。 2.安装Git 访问Git for Windows下载并安装Git。安装完成后,您可以在命令提示符中使用git命令。 3.安装CUDA 如果您的计算机配备了NVIDIA GPU,并希望利用GPU加速,请前往NVIDIA官方网站下载并安装适用于您GPU型号的CUDA Toolkit。 克隆项目代码 执行以下命令以克隆Story-Adapter项目代码: git clone https://github.com/UCSC-VLAA/story-adapter.git cd story-adapter 此操作将在当前目录下创建一个名为story-adapter的文件夹,包含项目的所有代码。 安装依赖项 pip install-r requirements.txt-i https://pypi.tuna.tsinghua.edu.cn/simpe/ 下载模型 在下载模型,请提前准备好网络(你应该懂的什么是网络吧)。 按照官方的指引来下载对应的模型,及存放的位置。 Download the checkpoint downloading RealVisXL_V4.0 put it into “./RealVisXL_V4.0” downloading clip_image_encoder put it into “.
2025-02-16
[AI]
本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇)
当你在看到文章标题,以及发布时间时,想必你是不会继续浏览下去的,这一点,是可以理解的,换做是我,也会做出同样的抉择。 既然如此,而又为什么又要写这篇文章呢? 其一,之所以没能在Stable Diffusion3.5发布时,在本地电脑部署它,那是因为彼时的老破电脑是不足以安装它的。 其二,赤巨资购买了可以把玩Machine Learning的高配电脑,这才想要在新电脑中部署Stable Diffusion3.5这个文生图大模型,故此,将本地部署过程记录下。 模型大小的区别 Stable Diffusion3.5发布三个不同参数的模型,分别是Medium、Large Turbo、Large。 Stable Diffusion 3.5 Large:该基础型号拥有 80 亿个参数,质量卓越,响应迅速,是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。 稳定扩散 3.5 Large Turbo:稳定扩散 3.5 Large 的精简版仅需 4 个步骤即可生成高质量图像,且具有出色的快速依从性,速度比稳定扩散 3.5 Large 快得多。 Stable Diffusion 3.5 Medium: 该模型拥有 25 亿个参数,采用改进的 MMDiT-X 架构和训练方法,可在消费级硬件上“开箱即用”,在质量和定制易用性之间取得平衡。它能够生成分辨率在 0.25 到 2 百万像素之间的图像。 可以从Hugging Face下载 Stable Diffusion 3.5 Large 【点击下载】 推荐16G以上显存 Stable Diffusion 3.5 Large Turbo 【点击下载】 推荐8G以上显存 安装 下载最新 ComfyUI 我们可以在github.com下载ComfyUI官方打包版,ComfyUI v0.3.13 当然咯,你也是可以下载源码,进行编译。 下载适合自己电脑显存的模型 在Huggingface.co下载Stable Diffusion3.
2025-02-03
[AI]
谁说Win7安装不了Node.js最新版的呢?都2025年,还不更新系统到Win11
近年来,Node.js作为前端开发的顶梁柱,已经被越来越多的开发者广泛使用。但不少坚持用Windows 7的朋友却发出了这样的抱怨:“Win7根本装不了最新版的Node.js!这该怎么办?” 其实,这个问题既和技术有关,也和理念有关。如果你还在用Win7,或许是时候重新思考一下升级的必要性了。本文将详细分析为什么Win7无法直接安装最新版的Node.js,并提供解决方案。 下载二进制压缩包 在win7系统下安装最新版node.js,提示最低要求Win版本是Win8.1或Server 2012,然后拒绝安装。 也是,这都2025年了,而你却还在使用早被microsoft停止维护的win7系统,你是不是该去升级下你的系统了。 然而,在某种情况下,如政府项目等,他们还在使用win7系统,他们总不可能为了迁就你,而去更新可能含有“潜在风险”的系统。 既然如此,那么该如何在win7系统下安装最新的node.js呢? 其实,win7是可以安装最新版的node.js的。 我们将下载下来的压缩包,进行解压到你想要存放的任意位置。 在cmd窗口中运行node -v,输出当前node.js的版本。 然而依旧会给出警告提示,那么,我们可以通过set NODE_SKIP_PLATFORM_CHECK=1。 之后再次输入node -v命令,便能够正常输出node版本信息了。 配置环境变量 虽然通过上述步骤,我们已然在win7系统下安装上了node.js最新版本。但你发现没node -v命令是需要在它解压路径下,换句话说,便是离开该目录,是找不到node.exe这个可执行文件的。 或许你早就想到了,那么将node.exe所在的路径添加到PATH环境变量中即可。 然而,我们还需设置set NODE_SKIP_PLATFORM_CHECK=1这个环境变量,因为这种设置只对当前cmd窗口有效,为了一劳永逸,我们也将它设置进环境变量。 而如果想要切换成其他版本,只需下载对应版本的二进制压缩包即可,配置方式同上,是不是感觉很丝滑呢!
2024-12-26
[node.js]
vs code远程调试Linux服务器上的php代码
前言 不管是测试服务器,还是生产服务器,程序出现了问题,虽然可以根据日志来锁定问题,但从效率上来讲,总是那么不尽如人意。 虽然PHP可以在代码中通过var_dump()和dump()来调试输出,但这效率,可真是一言难尽啊。 由于Coder开发都是在本地,一番测试各个功能并没有什么问题,可一旦部署到测试服务器上,再次进行测试时,却出现了诡异的问题,也许这些问题,是你见都没见过的问题。 面对这种困惑,我们能想到的就是,能不能在本地电脑通过工具,远程调试测试服务器上的PHP代码呢? 答案当然是可以的。 VS Code安装 Remote 如果你的电脑还没有安装这款开源免费且开箱即用的IDE,那么你可以先去下载安装它。 VS Code官方下载地址:https://code.visualstudio.com/ 作为一位Coder,我想你应该不至于会去国内的什么下载站进行下载李鬼版的VS Code吧,除了官方的,其他的都是盗版,如果你无知到下载了国内付费的VS Code(原先武汉就有一家公司,无耻到把VS Code开源代码套个壳,拿出来卖,什么公司忘了),那你算是给IT界丢人了。 安装 Remote-SSH 在打开的VS Code,在左侧的功能栏里,点击那个田字格的图标,搜索框中输入remote后,点开如下图所示的,点击install,安装这个插件,它就是用来远程连接的。 连接远程服务 ctrl+shift+p打开命令框输入remote ssh,或者点击左下角绿色按钮,这里没能截取全图。 首次是需要建一个配置文件。 # Read more about SSH config files: https://linux.die.net/man/5/ssh_config Host <给连接的服务器命名> HostName <需要连接的服务器IP> User <连接服务器的用户> ForwardAgent yes windows7出现的错误(非win7系统可以跳过) 选择远程服务器的系统类型,出现下图的错误,那是因为在windows7系统中没有安装SSH,当然现如今,几乎很少开发者会在windows7进行开发了。 64 位操作系统下载这个:点击下载(备用下载) 32 位操作系统下载这个:点击下载(备用下载) 将OpenSSH安装路径添加到环境变量 Path中。 使用 RSA 进行免密登录 生成公钥/密钥对 直接在VS Code中打开terminal,或者cmd打开一个黑窗口,输入以下命令。 ssh-keygen -t rsa 将公钥添加到服务器上 把公钥文件id_rsa.pub拷贝到需要登录的服务器上(存储路径可以随意,但是之后加入到另一个文件尾部的时候注意路径地址。) 将公钥id_rsa.pub填充到authorized_keys尾部。 cat /home/id_rsa.pub >> ~/.ssh/authorized_keys Remote-SSH配置中添加本地秘钥文件路径 我们打开之前的Remote-SSH配置文件,在文件末尾加入以下内容。 IdentityFile <你本地的SSH秘钥文件路径> #这个非必要,通过它可以避免每次连接都要输入密码的麻烦。 最终的Remote-SSH配置文件将会是这般。
2024-12-19
[PHP]
1
2
...
11