秋码分享

一个游离于山间之上的Java爱好者 | A Java lover living in the mountains

累计撰写 164 篇文章
累计创建 359 个标签
累计创建 48 个分类

置顶一套由 Hugo 驱动的博客主题 hugo-theme-kiwi 开源啦自秋码记录没再为云服务器续费那会儿起，便选用了由Hugo驱动的博客主题，来迁移秋码记录上的所有文章，然而，在众多Hugo博客主题之列，竟找不出一套属于自己想要的风格的主题，故而，也只能暂且套用了一个还算可以的博客主题。那套没有秋码记录博客风格的主题，终究是会被替换的，一切都只是时间问题。可没想到的是，暂时选用那套博客主题，竟然暂时了这么久，这一搁就是好几个月了。还记得，秋码记录云服务器到期是在 6 月 20 日，那是一个盛夏的季节，可如今呢，却是一个寒冬腊月、冷风凌冽、大雪纷飞的残冬时节，我不禁感叹，时间真的过的好快啊！快的让人喘不过气来。其实，一套拥有秋码记录风格的主题，早已在云服务器到期之际，便应运而生了，可为什么一直拖到现如今呢？想必这也是您想问的吧！拖本不是我的本意，奈何有其他事傍身，无暇他顾，故而一拖再拖，拖到这寒冬腊月，窝在室内，身披被子，势必也要写出它来。 hugo-theme-kiwi 名字的缘故说出来不怕您笑话，我很喜欢吃猕猴桃（也可以叫奇异果），而kiwi便是奇异果的英文，所以就将这套具有秋码记录博客风格的主题称为 hugo-theme-kiwi了。或许您会问，那为什么不叫qiyiguo或mihoutao，也不是不可以，只是个名称而已嘛！何必那么讲究呢！只要自己欢喜，那么起什么样的名称，又有什么关系呢！还管业内人士怎么说，说这个太 low了，然而，我们又何必去在乎那些所谓的”技术专家“呢！说这个不符合命名规范，我们不要去在意别人怎么说，人生苦短，何必将自己束缚的那么紧绷呢！我们应该摒弃掉人生当中的各种条条框框。扯多了，还是回到为何将这套主题叫hugo-theme-kiwi呢？其实，起初，我本想将这套主题叫hugo-theme-qiucode，然而，这个想法也只在我脑中停留了几秒钟，像是一阵轻风拂过，吹乱了头发，然而，下一秒，我却及时的将头发捋好，仿佛那阵风并为吹过一般。也许是因为qiucode比kiwi多了几个字符吧！但还是由于qiucode太过于局限了，总抵不过kiwi来得更加宽泛，没有专为某人而设计的主题！ hugo-theme-kiwi目下拥有的功能我们讲完了hugo-theme-kiwi名称的由来，我们也该聊聊它到底有哪些功能？当然，这些才是您浏览本文的最终目的，毕竟，一套好看的hugo主题总是那么吸引人，好比我们走在街上，忽然，迎面走来一位牵手高挑的美女，我想，那一刻，任一男人都会将目光迅速地移到那位美女身上的！当然咯，相貌与身材不及那位美女的其他女人（多是相貌平平），她们对那位美女瞬间把那条街所有男人的心给俘获了，心中难免怨恨，嘴角略微上扬，轻轻地一声“啧”，和那默契的翻白眼（或许，这才是女人与男人见到美女的所表现出的天然之别的情绪） hugo-theme-kiwi V0.01已实现如下功能： 1、首页文章列表展示，以文章缩略图和文章摘要显示（毕竟是图文内容嘛！总得给个文章缩略图吧！） 2、是列表，那它就需要分页，而这套主题摒弃了随着滚动条触底而加载下一页数据（让人感觉有种加载不完数据） 3、文章详情页，当然，与用户交互那是必须的，所以加入了评论，也就是您可以对某篇文章进行评论。 4、文章详情页右侧，自动识别出文章目录，点击目录可以快速到达您所感兴趣的目录下阅读，减少了您宝贵的时间。 5、友情链接，用于添加拥有个人博客网站链接，虽然你我身处天南地北，但能在此处以博客会友建立了（可以称为博友）“友情”。 6、右侧侧边栏，分类和标签各自跳转到各自的页面还未实现的功能： 1、首页文章搜索 2、时间轴 3、右侧侧边栏，分类与标签跳转页面优化 …… 今夜是平安页，您吃了苹果了吗？我衷心的祝愿您和您家人一生平安，同时，我也祈愿我和我的家人以及我身边的人一生平安！
- 2023-12-24
[Hugo]
接码平台 SMS-Activate 余额可以转移到新平台使用，截止日期：2026年1月29日前些天，邮箱里收到一封来自 SMS-Activate 停止运营的邮件。当我点开这封邮件时，一下子就被震惊到了。这个看着既熟悉又陌生的平台，终究还是倒下了。时间可追溯到三年前，也就是 2022 年 12 月 8 日，此时，正是 OpenAI再次点燃了 AI 这把火，而当时身在国内的你我，想要把玩上线不到一周便突破 100 万用户的生成式对话 AI（ChatGPT），SMS-Activate便成了大多人的`接码平台了。 OpenAI重燃 AI这把火，让全球为之狂欢至今。虽然国内呈现出百模乱战的怪象，但用户总是会在这种怪象下耗些羊毛。也许是 AI的爆火，给SMS-Activate带来了冲击；还是竞品，分了SMS-Activate那份本该不大的蛋糕呢？没谁能说得清楚，天知道呢！看完了邮件，便立即登录SMS-Activate平台，把余额提取出来。毕竟那封邮件说明了，提现截止日期为2026年1月29日。可当我还是以三年前的链接进行访问SMS-Activate平台，却跳转到sms-activate.ru，不用怀疑，这就是该平台的官方域名。然而，我满怀热情的将鼠标移入头像处，并点击它时，在头像下方弹出的下拉菜单中，点击提款文字按钮后，随后又弹出了一个modal确认框。从确认框中可以看出，提款最低金额得是$30啊！很显然，我是不符合该提款条件。相信大部分人也是不符合该条件吧！都是即充即用的。既然达不到该平台的提款要求，那么还能怎么办？凉拌，就算给平台饯行吧！若账号长时间没有登陆，会出现下图这般的提示，并由用户确认在邮件中确认账户身份信息。打开邮件，点击确认按钮，会在浏览器新开一个标签页。可是，却出现了神奇的一幕啊！我当时又被震惊了，难不成网络卡顿了(此刻，不禁联想到前段时间，老罗吐槽电信宽带的事情。面对网络卡顿的情况，口中呼出了一口浊气，叹了口气！) 然而，在我以为网络卡顿的同时，刷新了该链接好多次，闪现在我眼前的画面，始终如一，未曾改变！可当我拿起水杯，喝了一口茶时，猛然间，联想到这个sms-activate.io域名DNS解析不了，难不成是sms-activate.ru。果不其然，修改了用户确认链接后，直接跳转到该平台的首页，并弹出了一个提款资金或转移资金到新平台的modal确认框。我这个账户，提款是不可能的了，那么就剩转移资金到新平台这条路了。无论是提款，抑或转移资金，都需要2FA验证。关于什么是2FA验证，这里就不赘述了，毕竟不是本文的重点。想必大伙都有过对github账户的2FA验证经验吧！先把这个modal框关闭，去个人中心把2FA开启。鼠标移入头像处，点击它，在出现的下拉框里，点击总览文字链接。然而，出乎意料的一幕出现了，什么？怎么出现了404？这是怎么了？此刻，我再次被该平台给震惊到了，很是无语…… 可当我去除了/cn之后，神奇的一幕又出现了！随后，我点击了启用双因素验证按钮。我打开了手机的验证器应用，并扫码了。填入邮箱验证码，以及验证器临时验证码后，点击添加双因素验证按钮。随后，便会看到我的账户已开启了双因素验证。现在，可以回到首页了。在弹出的modal确认框中，依次填入邮箱验证码，以及验证器临时验证码，之后便点击获取促销代码按钮。将该促销代码复制到某个地方。之后，我来到了由sms-activate首页提供的新平台。目前，我这个新账户没有余额。我点击了头像，在出现的下拉菜单中，点击Redeem Promcode文字按钮。在弹出的modal确认框中，黏贴我刚才在sms-activate平台上获取到的促销代码，黏贴好了，就可以点击Redeem按钮，完成从SMS-Activate平台上余额转移到hero-sms.com平台上。当我刷新hero-sms这个新平台后，看到了我这个账户余额已不再是$0了。当我再次回到sms-activate平台时，我那个账户的余额已变回了$0。如果，你看到了，还没有把你的SMS-Activate平台上余额进行转移，那么，请尽快转移吧！留给SMS-Activate用户的时间不多了！若你没有SMS-Activate平台账户，那么，你就当看个热闹……
- 2026-01-18
[接码平台]
是时候将 hugo-theme-kiwi 主题提交到 themes.gohugo.io 站点上了起初，在写 hugo-theme-kiwi 主题那会儿，就想着，等写完了，便提交到 themes.gohugo.io 站点上。可这事被我一再耽搁，便拖到了这寒冬腊月，我依旧身披被子，势必要将 hugo-theme-kiwi 提交给 themes.gohugo.io 。而此时正值跨年之夜，借此机会，祝大伙新年快乐。然而，在这 2025 年的最后几小时里，心中难免泛起一阵酸楚。在过去的一年里，虽看似很忙碌，但实际很闲啊！最终什么事情也没完成！好了，废话少叙，切入正题。 Fork 项目首先，需要对 https://github.com/gohugoio/hugoThemesSiteBuilder 该项目进行 fork 到我的 github 仓库中。而该项目，便是在 themes.gohugo.io 站点上所列出的所有开源的 hugo主题了。而若想要在 themes.gohugo.io 站点上列出你的开源 hugo主题，那便是在该开源项目进行 PR 提交了。点击 fork 到我的 github 仓库中。克隆刚刚 fork的项目在 fork 项目到我的 github 仓库之后，便是在本地电脑，在电脑的任意一空闲盘符下，打开 Git Bash 黑窗口，执行以下命令，进行 clone 我刚刚 fork 过来的项目。 git clone https://github.com/zhenqicai/hugoThemesSiteBuilder #注意这里的 username 及所 fork 后的仓库名称变化配置远程上游仓库为了保持我的Fork与原始仓库同步，添加原始仓库为远程上游仓库： git remote add upstream https://github.com/gohugoio/hugoThemesSiteBuilder #注意，所 fork 的远程上游仓库的 username 及仓库名称保持我的 fork 同步在进行修改之前，确保我刚刚 fork 是最新的。
- 2025-12-31
[Hugo]
Flux2 刚开源就凉了？Z-Image 本地部署狠狠打了个样过去一周，AI 生图圈发生了两件颇具戏剧性的事情： 1️⃣ Flux2 开源了，号称第二代旗舰文生图模型。 2️⃣ Z-Image bf16 量化版悄然支持 Windows 本地部署。结果很明显—— Flux2 开源了，社区反应平淡； Z-Image 本地部署了，几乎全网惊呼：“这是普通人能跑的旗舰模型！” 🧊 一、Flux2：开源了，却离普通用户太远 Flux2 由原 Flux 团队开发，本身技术能力不容置疑，但其开源策略与用户实际能力产生了巨大的落差：显存要求：最低 48GB，旗舰配置 80GB 本地部署成本：Linux + 高端 GPU + 一堆依赖出图速度：即使在 48GB 显卡上，单张也可能耗时 10–60 秒对绝大多数普通创作者来说： “你开源得再好，我也跑不动。” 社区吐槽如潮： “开源个寂寞” “我连下载都点了，但我知道我跑不动” “这不是给用户开源，这是给科研实验室开源” 一句话总结：Flux2 开源了，但没人能真正用起来。 🔥 二、Z-Image bf16：企业实力 + 技术优化，让本地生图触手可及与此同时，另一边出现了一个实力派选手： Z-Image bf16 本地量化版，由 Alibaba.com 集团旗下 Tongyi Labs 开发，依托企业级技术与科研实力，通过 bf16 量化优化模型大小和显存占用，实现 Windows 本地 16GB 显卡可用。当我们第一次在 RTX 4060 上部署成功时，显存监控跳出： 12.7GB
- 2025-11-29
[AI]
声音的未来：Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导在开源 TTS（文本转语音）界，情感控制一直是科研与实际应用追求的目标。然而，当 Resemble AI 提出的 Chatterbox 宣称自己是「第一个支持情感夸张控制的开源 TTS 模型」时，我们该如何审视这项说法的准确性，又该如何展现它真正的创新所在？一、情感控制：开源 TTS 项目的竞争图谱实际上，在 Chatterbox 之前，已有多个开源项目在“情感控制”层面做出了重要探索： EmoSphere-TTS（INTERSPEECH 2024 官方实现）通过在三维情感空间（arousal, valence, dominance）基础上引入“球面情感向量”，支持连续的情绪风格 + 强度控制，精细度和自然表现力都值得称道。GitHubarXiv EmotiVoice（网易有道，2024）提供离线开源引擎，支持中文和英文，可使用情绪标签（如“开心”“激动”“悲伤”“愤怒”）控制语调与情绪表达。GitHub 其他探索类工具和基础组件包含 Coqui TTS、ESPnet TTS、Mozilla TTS 等框架，它们支持通过调节音高、音量、速度等参数来生成情绪化语音。Reddit 最新研究成果包括 EmoVoice（LLM + 自然语言情绪提示控制）、EmoSteer-TTS（训练自由的激活引导方式）、EmoMix（情绪混合与强度调控）、EmoKnob（克隆 + 情绪细致调控）等研究，为开源情感 TTS 系带来更多可能。arXiv+3arXiv+3arXiv+3 结论：Chatterbox 并非历史上第一个拥有情感控制能力的开源 TTS。但它的情绪“夸张度”滑块是一种独特且易用的控制方式。二、Chatterbox 的真正卖点：更直观、更生产力 1. 「情感夸张度（emotion exaggeration）旋钮」 Chatterbox 将复杂的情绪表现提取为一个用户可调节的单参数滑块，从「冷静」到「夸张」，让用户更容易定制。（官网与 README 均强调该功能）GitHubchatterbox.run 2. 面向生产的用户体验安装简便：支持 pip，一行代码启动。实时化：延迟低于 200ms，适合在线服务、互动式应用。Resemble AIchatterbox.run 3. 零样本语音克隆 + 多语言支持支持仅用少量参考音进行克隆，无需训练即可生成个性化声音。官方页面提及支持“23+”语言，让它更适配全球多语内容生成。Resemble AI 4. 水印保障：PerTh 隐形音频水印嵌入人耳不易察觉但可精确检测的水印，支持追责与内容溯源，即使经过压缩剪辑也能识别。chatterbox.
- 2025-09-04
[AI]
还以为那只是换个背景？Qwen-Image-Edit 在 ComfyUI 中能做到更离谱的事阿里巴巴通义千问团队发布并开源了 Qwen-Image-Edit 图像编辑大模型，它是基于 20B 的 Qwen-Image 模型进一步训练，成功将 Qwen-Image 的文本渲染特色能力拓展到编辑任务上，以支持精准的文字编辑。此外，Qwen-Image-Edit 将输入图像同时输入到 Qwen2.5-VL（获取视觉语义控制）和 VAE Encoder（获得视觉外观控制），以同时获得语义/外观双重编辑能力。精准文字编辑: Qwen-Image-Edit 支持中英双语文字编辑，可以在保留文字大小/字体/风格的前提下，直接编辑图片中文字，进行增删改。语义/外观双重编辑: Qwen-Image-Edit 不仅支持 low-level 的视觉外观编辑（例如风格迁移，增删改等），也支持 high-level 的视觉语义编辑（例如 IP 制作，物体旋转等）强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image-Edit 在编辑任务中均获得 SOTA，是一个强大的图像生成基础模型。下载模型对于国内的朋友，可以在国内镜像下载 Qwen-Image-Edit 模型： https://hf-mirror.com/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_models LoRA Qwen-Image-Lightning-4steps-V1.0.safetensors Text encoder qwen_2.5_vl_7b_fp8_scaled.safetensors VAE qwen_image_vae.safetensors 等以上模型都下载完成后，按以下存放路径，拖入到 Comfyui 对应的文件夹内。 📂 ComfyUI/ ├── 📂 models/ │ ├── 📂 diffusion_models/ │ │ └── qwen_image_edit_fp8_e4m3fn.safetensors │ ├── 📂 loras/ │ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors │ ├── 📂 vae/ │ │ └── qwen_image_vae.
- 2025-08-20
[AI]
Windows 结合最新版 ComfyUI 部署阿里最新开源的 Qwen-Image 图像大模型引言曾几何时，当 Stable Diffusion 文生图开源后，输入一段文本便能生成图片，而惊艳之时。能否在图片写入中文，而不再是乱码，苦求各种解决方案，而不得其一二，多半还是那么强差人意。然而，阿里巴巴千问团队震撼开源的 Qwen-Image ，这款模型不仅精准渲染中文文本，还能智能编辑图像，堪称AI绘画界的"全能选手"！那么，接下来，就和我一起在 Windows下基于最新版的 ComfyUI ，来部署 Qwen-Image 工作流。安装 ComfyUI 或更新它若你还没安装过 ComfyUI，那么你可以先进入 ComfyUI 官网，下载它。 ComfyUI 官网地址：https://www.comfy.org/zh-cn/ 假使你跟我一样，之前在电脑下载过 ComfyUI，那么，只需双击 ComfyUI根路径下的 update 文件夹里的 update_comfyui_stable.bat 即可完成更新。下载模型目前，千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。 https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models 下载好这个量化模型，还需下载编码器和 VAE。 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 下载好了这些模型，移动到对应的文件夹。启动 ComfyUI 加载工作流，使用示例提示词生成图片在 ComfyUI根目录下，双击 run_nvidia_gpu.bat ,随后便会弹出一个黑窗口（ Terminal），稍待几秒后，它会自动打开你电脑默认浏览器，在一个新页签下展示 ComfyUI 的界面。之后，将 https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/ 中的图片拖入到这个页面里，即可展现在你面前的便是 Qwen-Image 工作流了。写入 Qwen-Image 官方提示词。宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子，里面摆放着发光的服务器机箱，门口两个侍卫守护者。右边有两家店铺，其中一家挂着“云计算”的牌子，一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕；另一家店铺挂着“云模型”的牌子，门口放着一个大酒缸，上面写着“千问”，一位老板娘正在往里面倒发光的代码溶液。虽然与官方给出的图片有些许出入，但这已经很不错了，至少在中文渲染上面，没有出现所谓的乱码。毕竟这是量化版本。 Qwen-Image官方示例提示词：https://qwenlm.github.io/blog/qwen-image/ Lora 模型加持若你想要生成 Lora 写实风格的图片，那么只需加载 Lora 模型即可。
- 2025-08-14
[AI]
从零样本到跨场景：Seed-VC语音转换技术的革命性突破引言：当声音克隆不再需要训练在传统语音转换技术中，用户往往需要数小时的录音数据和复杂的模型训练才能实现声音克隆。而2024年发布的Seed-VC（Speech-to-Speech Voice Conversion）技术打破了这一范式——它通过零样本学习（Zero-Shot Learning）实现即时声音克隆，仅需1-30秒的参考音频即可完成音色复制，甚至支持实时转换和歌声生成。这项技术不仅在学术界引发关注，更在娱乐、影视、教育等领域掀起应用浪潮。技术解析：Seed-VC的核心创新零样本学习的实现原理 Seed-VC基于上下文学习（Contextual Learning）和深度神经网络，通过以下流程完成声音克隆：特征提取：从源语音和目标语音中提取音高、音色、韵律等关键特征特征编码：利用XLSR或Whisper模型将声音编码为中间表示扩散模型生成：采用HiFT或BigVGAN声码器合成高质量语音波形，支持25-100步的扩散过程平衡速度与质量这种架构无需预训练特定音色模型，真正实现“即插即用” 突破性功能：实时与歌声转换 300ms实时处理：通过优化算法延迟和设备侧处理，支持在线会议、直播等场景的即时变声歌声合成黑科技：将说话语音转换为歌声时，保留原音色特征并自动调整音高，解决传统SVC技术中音色失真问题性能优势在客观评估中，Seed-VC在语音清晰度（PESQ 4.32）和相似度（SIM 0.89）上显著超越OpenVoice、CosyVoice等模型，甚至优于部分需训练的模型（如So-VITS 4.0）应用场景：声音的无限可能影视与娱乐为动画角色快速生成定制音色（如用30秒明星语音生成角色配音）直播中实时切换音色，创造虚拟主播的多样化声线音乐创作将未受过声乐训练者的语音转换为专业级歌声，支持半音调校以适配背景音乐案例演示：用户通过剪映分离背景音后，用Seed-VC将干声转换为数字人演唱版本教育与医疗语言学习中模拟不同口音发音，例如中文方言到标准普通话的即时转换。为失声患者复刻个性化语音，保留情感表达特征。实践指南：如何快速上手部署方式小白友好型：通过Hugging Face的Gradio网页界面直接上传音频开发者模式：命令行工具支持参数微调，如设置扩散步数（--diffusion-steps）控制生成质量。模型选择建议模型版本适用场景延迟参数量 seed-uvit-tat-xlsr-tiny 实时语音转换 <400ms 25M seed-uvit-whisper-base 高保真歌声合成 1-2s 200M 进阶技巧使用--semi-tone-shift调整音高适配歌曲调性开启auto-f0-adjust自动对齐说话与歌唱音高行业影响与未来展望 Seed-VC的出现标志着语音合成技术从“专用模型”向“通用基座”的转型。其自定义微调功能（每位说话人仅需1条语音）让个性化声音克隆门槛大幅降低。据预测，到2030年，语音转换市场将突破10亿美元，而零样本技术将成为主流。 Seed-VC不仅是一项技术突破，更是一场关于声音表达的革命。它让每个人都能低成本拥有“声音分身”，重新定义了创作、沟通与身份表达的边界。正如开发者所言：“我们的目标是让任何声音都能被自由塑造，就像文字一样。” 本地部署我依旧使用python3自带的venv模块来构建python虚拟环境。 python -m venv seed-vc-v2-env cd seed-vc-v2-env/Scripts activate 之后，我们克隆Seed-VC推理代码。 git clone https://github.com/Plachtaa/seed-vc.git 安装与你电脑CUDA版本匹配的torch。
- 2025-04-18
[AI]
大语音模型轻量化革命：MegaTTS3 如何重新定义文本生成语音的技术边界（windows篇）传统语音合成技术受限于高昂的数据需求和庞大的模型参数规模，难以实现个性化语音的实时生成。而字节跳动与浙江大学联合推出的 MegaTTS3，以其 0.45亿参数轻量级架构和零样本语音克隆能力，打破了这一僵局。作为首个完全开源的高效语音生成模型，MegaTTS3 不仅支持中英双语无缝切换，还能通过短短几秒的音频样本克隆音色，甚至灵活调整口音强度，堪称语音合成领域的“瑞士军刀” 架构解析：扩散模型与Transformer的协同创新 MegaTTS3 的核心架构融合了扩散模型（Diffusion Model）与 Transformer 的优势，通过模块化设计实现语音属性的精准解耦与控制。其技术亮点包括：多模态信息解耦内容、音色、韵律分离建模：借鉴前作Mega-TTS2的研究成果，MegaTTS3 将语音分解为内容（文本语义）、音色（说话人特征）和韵律（语调节奏）三个独立维度，并通过多参考音色编码器（MRTE）和韵律语言模型（PLM）分别优化，显著提升克隆语音的自然度。自回归时长模型（ADM）：动态捕捉语音节奏变化，确保长句合成的连贯性。轻量化扩散Transformer主干采用TTS Diffusion Transformer架构，仅0.45亿参数即可实现与数十亿参数模型相媲美的生成质量。通过混合专家（MoE）设计，模型仅激活部分参数，大幅降低推理资源消耗。高效训练策略基于38k小时中英文混合数据训练，结合轻量级监督微调（SFT）和直接偏好优化（DPO），在保证质量的同时提升训练效率。技术新亮点：不止于“克隆” 零样本语音克隆的突破仅需3-5秒的参考音频，即可实时生成与目标说话人音色高度相似的语音，无需微调。这一能力得益于其音色编码器的跨说话人泛化能力，支持从儿童到老人、不同语种的多样化音色捕捉。口音强度可控的语音生成用户可通过调节参数生成带有特定口音的语音（如“带粤语腔调的普通话”），为虚拟角色赋予地域特色或个性化表达。中英混合朗读与语音修复支持同一段文本中中英文自然切换，解决传统模型在双语混合场景下的生硬断句问题。同时，模型可自动修复含噪声或低质量的输入音频，提升鲁棒性。 CPU环境下的高效推理模型体积仅数百MB，支持在无GPU的本地设备（如普通PC或手机）上实时生成语音，打破硬件限制。本地部署首先我们得下载anaconda或miniconda这款用于python虚拟环境管理软件。也许，你有所纳闷，我一贯使用python3自带的venv模块来搭建python虚拟环境，可为什么这次却使用miniconda了呢？究其原因，是因为MegaTTS3依赖了pynini，而这个依赖库却对windows系统并不是那么的友好，换句话说，若使用python3自带的venv模块来构建的虚拟环境，大概率是安装不了pynini这个依赖库了。安装miniconda 在安装miniconda时，需将它的安装路径添加到环境变量（PATH）中。 clone MegaTTS3推理代码我们把MegaTTS3的推理代码给clone到本地。 https://github.com/bytedance/MegaTTS3 使用miniconda创建虚拟环境我们打开一个Terminal，输入以下命令来搭建一个用于MegaTTS3的虚拟环境： conda create -n megatts3-env 等它创建初始化成功后，我们继续输入以下命令来激活刚刚创建好的虚拟环境。 conda activate megatts3-env 安装依赖安装pynini==2.1.5 我们cd到刚刚clone MegaTTS3推理代码的目录下，安装pynini==2.1.5。安装 WeTextProcessing==1.0.3 这个依赖库就是MegaTTS3所必须的，而它又依赖了我们上面刚刚安装的pynini。这就是为什么使用venv模块创建的虚拟环境安装不了pynini依赖库的原因了，前提是在windows系统下噢。 pip install WeTextProcessing==1.0.3 安装MegaTTS3推理代码所需的依赖库在安装MegaTTS3推理代码的依赖库之前，我们得修改requirements.txt文件，将WeTextProcessing==1.0.41这一行给删除了，你问了，那就回答你，至于为什么删除它，那是我们刚刚不安装了吗！删除了WeTextProcessing==1.0.41这一行后，保存并关闭requirsments.txt文件。随后在Terminal输入以下命令： pip install -r requirements.txt 设置MegaTTS3虚拟环境的环境变量至于为什么要设置，若你这么问了，具体的我也回答不上来了，详情请浏览我的博客：秋码记录
- 2025-04-10
[AI]
竞赛级编程大模型OlympicCoder-7B之本地部署（Windows篇）一、核心定位与技术亮点竞赛级代码推理能力 OlympicCoder-7B 针对编程竞赛（如国际信息学奥林匹克竞赛 IOI）需求设计，通过 CodeForces-CoTs 数据集（包含 10 万高质量思维链样本）进行训练，覆盖 C++ 和 Python 语言的算法实现。该模型在 IOI 挑战赛中表现出色，生成代码的通过率和效率显著优于同规模模型。真实竞赛场景优化模型模拟了竞赛中的提交策略优化机制，例如在严格的时限内生成代码并通过测试用例验证，确保生成结果的正确性和效率。其训练数据整合了 CodeForces、DeepMind CodeContests 等竞赛平台的问题及官方解题思路，强化了算法逻辑的精准性。轻量化与高效部署作为 7B 参数量的模型，OlympicCoder-7B 在保证性能的同时降低了硬件门槛，可在消费级 GPU 上运行，适合开发者和教育机构本地化部署。量化版本（如 Q4_K_M）内存占用仅约 5GB，生成速度可达 45 tokens/s 。二、性能对比与实测表现算法竞赛任务在 CodeForces 和 IOI 题型测试中，OlympicCoder-7B 的代码生成准确率接近 32B 版本（如 OlympicCoder-32B），且在贪吃蛇游戏等复杂编程任务中生成代码的可执行性显著优于同规模模型。跨模型对比与同属代码生成领域的 aiXcoder-7B（北大开源）相比，OlympicCoder-7B 在竞赛题目上的表现更优，但 aiXcoder 在长上下文补全（支持 32k 上下文）和企业级开发场景中更具优势。而与 Magicoder-7B（UIUC/清华联合开发）相比，OlympicCoder 更专注于算法优化而非通用代码生成。三、应用场景与局限性适用场景算法竞赛训练：为选手提供代码思路和解题参考。编程教育工具：辅助学生理解复杂算法实现逻辑。自动化评测系统：生成测试用例或验证代码正确性。局限性领域专注性：在通用软件开发场景（如 Web 开发）中表现不及专用模型。数据时效性：需定期更新竞赛题库以保持模型对最新题型的适应能力。四、本地部署首先，我们使用python3自带的venv模块来搭建python 虚拟环境。当然，你也可以使用anaconda或者miniconda来构建python 虚拟环境。
- 2025-04-01
[AI]
阿里开源了端到端全模态大模型Qwen-2.5-Omini-7B之本地部署（windows篇）阿里千问团队开源了到端全模态大模型Qwen-2.5-Omini-7B，一时之间，炸燃了AI界。而这次千问团队开源的Qwen-2.5-Omini-7B，可谓是将看、听、读及写集于一身的全能型的大模型。 Thinker-Talker双核架构 Thinker模块：统一处理文本、图像、音频、视频输入，通过多模态编码器提取特征并生成语义理解结果。 Talker模块：基于双轨Transformer解码器，实时生成文本与自然语音响应，支持4种拟人化音色切换。创新技术： TMRoPE时间对齐算法：实现音视频输入的毫秒级同步对齐，视频推理准确率提升3.1%。 FlashAttention-2加速：降低显存占用并提升推理速度，支持8K分辨率图像输入。全模态统一处理能力支持文本、图像、音频、视频的端到端输入与输出，无需分模块处理。实测性能： OmniBench基准测试：综合得分56.13%，超越Gemini 1.5-Pro（42.91%）。语音合成自然度：Seed-tts-eval评分0.88，接近人类水平。本地部署虽然官方给出了最小GPU内存需求，但如果我们不是去分析（Analysis）视频的话，还是在8G显存下把玩的，当然咯，也是可以使用量化版本。精度 15(s) 音频 30(s) 音频 60(s) 音频 FP32 93.56 GB 不推荐不推荐 BF16 31.11 GB 41.85 GB 60.19 GB pip uninstall transformers pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356 pip install accelerate 你得先创建python虚拟环境，可以使用anaconda或miniconda。而我始终使用的是python3自带的venv模块来构建python虚拟环境。安装qwen-omni-utils这个工具类库。 pip install qwen-omni-utils 由于这个依赖默认安装的是CPU版的torch，所以，我们得先卸载它，而后安装CUDA版本的torch。 pip uninstall torch pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 我们身处国内，使用modelscope来下载模型，故而，需安装它。 pip install modelscope 推理模型我们新建一个python文件，输入以下脚本，以实现语音识别的功能。 from qwen_omni_utils import process_mm_info import torch #from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor from modelscope import Qwen2_5OmniModel, Qwen2_5OmniProcessor from qwen_omni_utils import process_mm_info model_path = "Qwen/Qwen2.
- 2025-03-28
[AI]
语音识别之whisper本地部署（实时语音之开篇） Whisper是由OpenAI开发的开源语音识别模型，以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练，覆盖100+语言，支持语音转录、翻译和语言检测，成为目前最通用的语音识别工具之一。其核心优势在于：端到端训练：直接处理原始音频输入，无需复杂预处理，输出包含标点符号的完整文本。噪声鲁棒性：在嘈杂环境、方言口音场景下仍能保持高精度。多任务能力：支持语音翻译（如中文转英文）、时间戳标注等复杂任务。本地安装我始终使用python3自带的venv来搭建python虚拟环境，当然咯，你也是可以使用anaconda或miniconda来构建python虚拟环境。 python -m venv whisper-env cd whisper-env/Scripts activate 随后，我们安装openai-whisper这个依赖库。 pip install -U openai-whisper 或者直接从github.com仓库获取最新的。 # 或从 GitHub 安装最新版本 pip install git+https://github.com/openai/whisper.git 我们可以看到，所安装的依赖库中包含了tiktoken，故而，就不需要在安装了。虽然，whisper是可以通过CPU来推理的，但是在电脑设备具有GPU的情况，还是选择torch的CUDA版本。 pip uninstall torch pip install torch --index-url https://download.pytorch.org/whl/cu124 之后，新建一个demo.py文件，写入以下脚本。 import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.wav") print(result["text"]) 首次运行，会去下载模型，而我使用的是turbo，所以自动下载的便是large-v3-turbo。如果自动下载失败了，那么就手动下载吧。模型默认加载路径：C:\Users\你电脑的用户名\.cache\whisper https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files
- 2025-03-25
[AI]
甭管是个人还是企业都能部署的Mistral-Small3.1，远超同级别的模型这不Gemma3刚开源出来，立马炸裂了整个“科技界”，还没等它把“热度”持续火下去，Mistral-Small3.1却再次掀起了“科技界”的热度。 Mistral-Small3.1是Mistral AI推出的240亿参数开源多模态模型，基于Transformer架构优化设计，核心特性包括：多模态支持：支持文本与图像结合的任务处理，扩展了应用场景边界。 128k超长上下文窗口：可一次性处理长篇文档或复杂对话，显著优于前代的32k窗口。高效推理引擎：采用量化技术优化推理速度，每秒处理150个token，延迟低至毫秒级，适合实时交互场景。本地化部署能力：支持在RTX 4090显卡或32GB内存的Windows设备上运行，通过Ollama等工具实现轻量化部署. 通过Ollama部署那么，接下来，我们在本地通过Ollama来部署Mistral-Small3.1。如果你还没安装Ollama的话，那么，你可以去它的官网进行下载安装，Ollama官网。我这里选择了量化版，根据自己电脑的硬件设备来下载对应的量化版本。拷贝命令，直接黏贴到Terminal中。 ollama run MHKetbi/Mistral-Small3.1-24B-Instruct-2503:q6_K_L 主要特性和功能轻量级：Mistral Small 3.1 可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行。这使其非常适合设备上的使用情况。快速响应对话帮助：非常适合虚拟助手和其他需要快速、准确响应的应用程序。低延迟函数调用：能够在自动化或代理工作流程中快速执行函数针对专业领域进行微调：Mistral Small 3.1 可以针对特定领域进行微调，打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。高级推理的基础：社区在开放的 Mistral 模型之上构建模型的方式继续给留下深刻印象。仅在过去几周，就看到了几个基于 Mistral Small 3 构建的出色推理模型，例如Nous Research 的DeepHermes 24B。为此，发布了 Mistral Small 3.1 的基础和指令检查点，以便进一步对模型进行下游定制。如果你本地电脑硬件资源有限的话，那么是可以前往Mistral 官方平台上使用，上面是满血版【点击前往】
- 2025-03-19
[AI]
文生音乐开源项目DiffRhythm，8G显存本地部署之Windows篇一、DiffRhythm：颠覆音乐创作的AI黑科技 DiffRhythm是由西北工业大学音频语音与语言处理实验室（ASLP@NPU）与香港中文大学（深圳）联合开发的开源音乐生成模型，其采用全扩散架构，能够在10秒内生成4分45秒的高质量双轨立体声音乐（包含人声与伴奏）。该模型以非自回归结构实现极速推理，支持纯文字风格描述生成音乐（如"Jazzy Nightclub Vibe"或"Arctic research station, theremin auroras"等创意场景），且最低仅需8GB显存即可本地部署。技术亮点：端到端生成：无需多阶段拼接，直接输出完整歌曲；句级歌词对齐：通过音素映射实现人声与歌词精准同步；压缩鲁棒VAE：支持从MP3等压缩格式还原无损音质；多模态输入：兼容文本提示、参考音频、歌词等多类型输入。本地部署我电脑依旧是使用python 3.10.9，而仍然使用python3自带的venv模块来搭建python 虚拟环境。当然咯，你也非得要跟我一样，你也可以使用python 3.11.X、python 3.12.x，用anaconda或miniconda来构建python 虚拟环境，这一点，并没有什么特定要求。创建python 虚拟环境你可以在电脑任一磁盘较为宽裕，来构建一个python 虚拟环境。下载DiffRhythm推理代码你得确保你的电脑安装好了git，否则的话，将无法通过以下命令进行clone DiffRhythm推理代码。至于这么安装git工具，就不在这里进行赘述了，毕竟我前几篇文章是有讲解过的。 git clone https://github.com/ASLP-lab/DiffRhythm.git cd DiffRhythm 安装espeak-ng DiffRhythm生成的音乐包含人声演唱的歌词，这需要将文本歌词转化为音素序列（如国际音标IPA），并精确映射到音频的时间轴上。eSpeak-NG作为开源音素合成引擎，在此环节发挥关键作用：音素解析：将用户输入的歌词（如中文、英文）转换为标准音素表示，例如中文你好 →/ni haʊ/，确保模型理解发音规则。发音规则库支持：eSpeak-NG内置100+语言的音素规则库，能够处理多语言歌词混合场景（如中英双语歌曲），避免发音错误。对齐算法依赖：DiffRhythm通过句子级对齐机制，将音素序列映射到潜在表示的特定位置，确保生成的歌声与歌词在时间轴上严格同步。eSpeak-NG提供底层音素时间戳数据支撑这一过程。我们直接下载espeak-NG官方编译好的安装包，https://github.com/espeak-ng/espeak-ng/releases。双击刚刚下载的espeak-ng.msi,一路Next下去就好了。还需将espeak-ng安装路径添加到PATH环境变量中。安装项目所需的依赖这一步是必不可少的，毕竟现代的项目都是集成项目，换句话说，一个大项目或多或少需要去集成优秀的框架及工具库等。 pip install -r requirements.txt 在国内，我们还是先设置一个国内镜像源，以便下载依赖库能够加快些，毕竟，pypi.org在国内访问起来真是一言难尽啊，就更别说再去pypi.org下载什么依赖库了。下载模型我们可以通过HuggingFace.co的国内镜像站hf-mirror.com进行下载模型。 DiffRhythm-base模型地址：https://hf-mirror.com/ASLP-lab/DiffRhythm-base/tree/main 我们仍然是通过git工具来下载模型，所以，你的电脑得提前安装好git，是很有必要的。 git clone https://hf-mirror.com/ASLP-lab/DiffRhythm-base ASLP-lab/DiffRhythm-base 运行python infer/infer.py 当模型下载完成了之后，这时，我们便可以通过以下命令，来生成音乐了。 python infer/infer.py --lrc-path infer/example/eg_cn.lrc --ref-audio-path infer/example/eg_cn.wav --audio-length 95 --repo_id ASLP-lab/DiffRhythm-base --output-dir infer/example/output --chunked 倘若，你运行了上述命令后，也出现了与下图一样的错误。
- 2025-03-15
[AI]
阿里QwQ-32B本地部署指南：用Ollama轻松运行320亿参数大模型在本地电脑硬件条件有限情况下，只能部署些参数小点的模型，虽然很多平台也提供了免登录，可以在线把玩满血版的DeepSeek。可我们总是寄望于国内外的这些大厂，能够训练出一个参数小点，且又能比肩DeepSeek满血版。这不，阿里推出了一款可以媲美DeepSeek满血版（671B）的小参数模型——QwQ-32B。 QwQ-32B一经发布，激起了千层浪，可谓是：QwQ-32B小钢炮撼动了DeepSeek满血版的“江湖地位”。甭管是QwQ团队的测评结果，还是来自“民间”的吹捧。最终，我们总得自己亲身部署了，方知这款小钢炮是否真的能比肩DeepSeek满血版呢？下载Ollama 访问Ollama官网下载Windows安装包双击执行安装程序，保持默认配置（注意C盘空间）验证安装：CMD输入 ollama -v 显示版本号即成功。下载模型访问QwQ-32B模型页你得先设置好你的网络，否则是下载不下来的。安装 page assist 浏览器扩展首先，我对国内很多人把浏览器扩展说成了浏览器插件，这是错误的，真正的浏览器插件是什么？那是可以改变浏览器内核的一套组件，而不是只修改网页上的内容。并且，google也都是叫extension（扩展），而插件（plugin）。可能是我本地模型“串”了。
- 2025-03-13
[AI]

1
2
11