首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
AI
mortimer
创建于2022-01-27
订阅专栏
AI/GPT/OpenCV
等 30 人订阅
共47篇文章
创建于2022-01-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
半开源语音克隆神器 MegaTTS3:安装难、用起来更难?手把手从安装到使用
MegaTTS3 是字节跳动开源的一个中英文语音克隆项目,效果相当不错。然而,官方的安装文档有些简略,尤其是在 Windows 系统上,许多用户反映安装困难。本教程旨在帮助大家解决这些问题
Gemini API 响应内容被标记?安全过滤机制解析与优化
在使用 Gemini AI 执行翻译或语音识别等任务时,您可能会遇到 "响应内容被标记" 等报错信息,如下图所示: 这主要是因为 Gemini 对其处理的内容存在严格的安全限制。尽管我们可以在代码中进
将edge-tts部署到cloudflare上,并兼容OpenAI TTS接口
玩配音的基本都知道,微软的edge-tts是好用免费的语音合成利器,唯一缺点是对国内限流越来越严,不过可以通过部署到 cloudflare 来规避,并且还能白嫖 cloudflare的服务器和带宽资源
实现一个用于cosoyVoice2的接口并兼容OpenAI TTS
cosyVoice是阿里开源的一个很棒的TTS项目,可以仅几秒音频样本即可克隆音色,最近更新到了cosyVoice2版本,相比之前有很大提升。 简单更新了下对应的api接口文件,并添加了兼容 Open
基于 Docker 的 Edge-TTS 中转API,兼容 OpenAI TTS接口
微软 Edge 浏览器的大声朗读功能强大,支持多种语言和角色。基于此,开发者创建了 edge-tts Python 包,允许在程序中使用微软 TTS 服务为文字配音。 然而,可能由于国内羊毛薅的太狠了
从视频中“抠”出硬字幕:白嫖智谱AI大模型开发硬字幕提取软件
为视频添加字幕,如今借助语音识别技术(ASR)已变得相当便捷。特别是 OpenAI 的 Whisper 系列模型,在语音转文字方面表现出色,让自动生成字幕成为可能。 然而,提取视频中已有的硬字幕(内嵌
白嫖Google免费GPU结合faster-whisper快速将音视频转为srt字幕
Google Colab 是一个免费的云端编程环境,你可以把它想象成一台放在云端的电脑,可以运行代码、处理数据,甚至进行复杂的 AI 计算,比如把你的音视频文件通过大模型快速准确地转换成字幕。 本文将
让声音更纯净:一个简单的音频降噪工具
为什么要降噪? 在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如: 语音识别: 噪声会降低语音识别的准确率,尤其是在低信噪比环境下。 语音克隆: 噪声会使依据参考音频合成语音的
F5-TTS集成包:Windows平台下的快速部署与应用
F5-TTS 是一款先进的文本转语音系统,它使用深度学习技术生成逼真、高质量的人声。只需短短10秒的音频样本,就能克隆出你的声音。F5-TTS 能够准确再现语音,并赋予其丰富的感情色彩。 Window
国内外免费 AI 平台盘点:零成本调用大模型API
自ChatGPT 3横空出世,掀起一股AI大模型热潮,国内外各类AI平台如雨后春笋般涌现。想要体验这些强大的AI能力?不必担心高昂的费用!许多平台都提供了免费API或免费额度,让你可以零成本体验人工智
”反思式三步翻译法” 应用于字幕翻译的尝试
吴恩达老师的「反思式三步翻译法」非常有效,它通过让模型自我审视翻译结果并提出改进建议,进一步提升翻译质量。然而,直接将该方法应用于 SRT 格式字幕翻译却存在一些挑战。 SRT 字幕格式的特殊要求 S
解决edge-tts在中国地区403错误:绕过限流新参数Sec-MS-GEC
微软 Edge 浏览器的“大声朗读”功能因其丰富的音色、对上百种语言的支持,以及自然的合成效果,在社区中被广泛“白嫖”使用。 作为免费的语音合成服务,其几乎没有限制,且许多开发者也基于它开发了工具,其
CosyVoice:阿里最强语音克隆模型体验并封装API接口
在中文TTS技术上,最近一年涌现出众多优秀方案,如GPT-SoVITS、ChatTTS和Fish TTS等,阿里新推出的CosyVoice,效果最佳。
豆包Marscode体验官:不写一行代码创建一个srt字幕翻译工具
最近,试用了字节跳动推出的 Marscode,感觉挺不错。最让人惊喜的是,它还自带了一个在线IDE,不仅拥有智能补全、预测和问答等强大功能,而且操作起来流畅的就像使用本地编辑器一样,完全感觉不到延迟。
30行代码实现一个带UI界面的图片背景移除工具:并附带web网页
人工智能技术如火如荼,去除图片背景早已有n种不同实现不同模型,但相对来说安装配置环境略有些复杂,今天介绍一个及其简单的方式,仅需30行代码即可实现,当然功能相对也弱一些,要求不高的话,用起来还行。
在python中使用edge-tts将字幕合成配音并对齐-免费用
微软edge浏览器中有个大声朗读功能,在任何页面均可免费使用,效果也还不错。那么能不能在任意地方调用这个朗读功能,从而实现将自己的文本合成语音呢?自然是可以的,pip中有个edge-tts库,可以很方
基于豆包大模型为音视频生成字幕-完整代码可用版
为音频和视频生成对应字幕的方法有很多,之前介绍过本地模型 openai-whisper ,虽然需要下载模型配置复杂环境,但全免费无限制。 今天介绍个更简单的方式,豆包提供的在线“音视频字幕生成”功能。
语言无界:视频翻译技术原理与流程探索
受益于AI技术的快速进步,曾经颇具挑战性的视频翻译如今变得更加易于实现,尽管效果可能尚未达到完美。 视频翻译较之文本翻译更为复杂,但核心依然是基于文字的翻译(尽管存在直接将声音转换成另一种语言声音的技
玩转OpenAI-Whisper:语音识别一站式指南
各种支持多语言语音识别的模型通常都是在 openai-whisper 基础上再开发的,例如更快、更精确的faster-whisper。
字幕翻译中空白行的产生和避免
在使用视频翻译配音软件时,经常会遇到字幕翻译结果出现空白字幕行的问题,本文就解释下为何会出现这种问题,以及如何能避免或降低出现该问题的方法。 字幕翻译与普通翻译的不同 字幕翻译与普通翻译之间存在显著差
下一页