首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
AI
mortimer
创建于2022-01-27
订阅专栏
AI/GPT/OpenCV
等 32 人订阅
共64篇文章
创建于2022-01-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
一次 ModelScope 替代 Hugging Face 的模型下载实战指南
Hugging Face Hub 无疑是AI模型库的黄金标准,然而,一个众所周知的事实是,由于网络限制,国内开发者访问 Hugging Face 的体验往往是“在漫长的等待中消磨意志”。社区镜像站 h
精通BAT脚本:为你的Windows AI项目打造“一键启动”的完美体验
在分发AI项目时,我们常常需要用户同时运行多个组件:一个Python后端API(如FastAPI或Flask)、一个前端开发服务器(如Vite或Next.js),有时还需要启动其他依赖服务。对于非技术
一次与“顽固”外部程序的艰难交锋:subprocess 调用exe踩坑实录
在面向Windows的软件开发中,调用外部可执行程序(.exe)是一个常见的需求。Python 的 subprocess 模块为我们提供了强大的工具。通常情况下,一切都很顺利。但当你遇到的那个 .ex
Hugging Face 下载模型踩坑记:从符号链接到网络错误
刚开始用 huggingface_hub 下载模型时,我以为一切都会很简单。一行代码,模型到手。但很快,一连串的报错和“意外”行为,让我不得不停下来,搞清楚它背后到底是怎么运作的。 这篇文章,就是我解
音视频字幕同步 之 从“理想模型”到“工程现实”的进化之路
在上一篇文章中 ,我们探讨了实现视频配音自动化同步的基本思路,并构建了一个初步的框架。那个框架的核心思想是“解耦”:将流程拆分为准备、决策、执行、合并四个独立的阶段。这个架构让我们摆脱了脆弱的单循环逻
为 Index-TTS 打造一个开箱即用的 Windows 整合包:从环境隔离到依赖难题的解决
Index-TTS 是一个非常优秀的开源零样本语音合成(TTS)项目,特别是在中文处理方面,能够有效纠正多音字的读音,并且音质和声音相似度都表现优异。 对于希望在自己应用中集成高质量语音能力
当AI配音遇上视频:实现音画同步的自动化工程实践
将一种语言的视频,配上另一种语言的语音,已经变得越来越普遍。无论是知识分享、影视作品还是产品介绍,好的本地化配音能极大地拉近与观众的距离。但这背后,一个棘手的问题始终存在:如何实现音画同步? 语言的差
用Gemini攻克小语种语音识别,生成广播级SRT字幕
本文将呈现一个经过反复实战验证的“混合架构”解决方案: faster-whisper的精准语音活动检测(内置的sileroVAD):只利用其最擅长的部分——以毫秒级精度定位人声的起止时间。
Whisper断句不够好?用AI LLM和结构化数据打造完美字幕
结合Whisper的字级时间戳功能与大语言模型(LLM)的强大理解能力,打造一个能智能断句、优化文本并输出结构化数据的全自动字幕处理管道
Gemini无法使用之 “Failed to list models: permission denied” 区域限制排查指南
一大早打开 Google Gemini 准备开始呼叫AI起来干活,却被一行冰冷的 Failed to list models: permission denied 错误提示和随之而来的区域限制页面泼了
Cannot find an appropriate cached snapshot folder?一篇文章彻底搞定huggingface下载难题
程序在你的电脑本地缓存目录中,没有找到它需要的模型文件,禁止了它联网去 Hugging Face Hub 下载这些文件
Parakeet-tdt-0.6b: 构建比 Whisper 更快、更准的私有化英文语音转录服务
在当今的 AI 应用中,语音转录(STT)已成为一项基础能力。OpenAI 的 Whisper 模型以其多语言支持和高准确性闻名,但在特定场景下,我们是否还有更好的选择?答案是肯定的。
Gemini CLI 国区使用常见问题解决方法
本文着重解决国内用户在安装和使用过程中可能遇到的网络、登录和配置问题。同时,也会简单讨论与 Claude Code 的核心差异,以及为什么 `gemini-cli` 是更佳选择。
国内使用 Gemini CLI 常见登录授权失败:安装与排错指南
国内使用 Gemini CLI 常见登录授权失败,网络问题优先排查,在受限网络环境下,遇到连接超时问题,首先应检查代理或 VPN 的稳定性。
Whisper 模型推理终极加速指南:CTranslate2 从入门到精通
如果你已经使用过 OpenAI 的 Whisper 模型,你一定对其惊人的识别准确率印象深刻。但在本地或服务器上运行推理时,它速度慢、资源占用高。通过 CTranslate2 转换,可以在几乎不损失精
FunASR离线部署踩坑:修复离线加载与GUI集成的两大关键补丁
在当今的AI应用开发中,高质量的语音识别(ASR)技术是许多产品的核心竞争力。特别是对于中文场景,阿里达摩院开源的FunASR项目效果非常出色。 FunASR 并非单一的模型,而是一个功能全面的基础语
当PySide6遇上ModelScope:一场关于 paraformer-zh is not registered 的调试旅程
如果你正在开发一个PySide6应用,并且需要调用像Funasr或ModelScope这样的重型AI库,那么请坐好,泡杯咖啡。你很可能即将或正在经历一场我刚刚从地狱难度中通关的调试之旅。 故事的开端平
半开源语音克隆神器 MegaTTS3:安装难、用起来更难?手把手从安装到使用
MegaTTS3 是字节跳动开源的一个中英文语音克隆项目,效果相当不错。然而,官方的安装文档有些简略,尤其是在 Windows 系统上,许多用户反映安装困难。本教程旨在帮助大家解决这些问题
Gemini API 响应内容被标记?安全过滤机制解析与优化
在使用 Gemini AI 执行翻译或语音识别等任务时,您可能会遇到 "响应内容被标记" 等报错信息,如下图所示: 这主要是因为 Gemini 对其处理的内容存在严格的安全限制。尽管我们可以在代码中进
将edge-tts部署到cloudflare上,并兼容OpenAI TTS接口
玩配音的基本都知道,微软的edge-tts是好用免费的语音合成利器,唯一缺点是对国内限流越来越严,不过可以通过部署到 cloudflare 来规避,并且还能白嫖 cloudflare的服务器和带宽资源
下一页