AI

AI/GPT/OpenCV

等 36 人订阅共80篇文章创建于2022-01-27

让声音更纯净：一个简单的音频降噪工具

为什么要降噪？在许多语音相关的应用场景中，噪声的存在会严重影响性能和用户体验。例如：语音识别: 噪声会降低语音识别的准确率，尤其是在低信噪比环境下。语音克隆: 噪声会使依据参考音频合成语音的

1年前
1.9k
2
1

让声音更纯净：一个简单的音频降噪工具

F5-TTS集成包：Windows平台下的快速部署与应用

F5-TTS 是一款先进的文本转语音系统，它使用深度学习技术生成逼真、高质量的人声。只需短短10秒的音频样本，就能克隆出你的声音。F5-TTS 能够准确再现语音，并赋予其丰富的感情色彩。 Window

1年前
1.8k
点赞
评论

F5-TTS集成包：Windows平台下的快速部署与应用

国内外免费 AI 平台盘点：零成本调用大模型API

自ChatGPT 3横空出世，掀起一股AI大模型热潮，国内外各类AI平台如雨后春笋般涌现。想要体验这些强大的AI能力？不必担心高昂的费用！许多平台都提供了免费API或免费额度，让你可以零成本体验人工智

1年前
8.0k
12
2

国内外免费 AI 平台盘点：零成本调用大模型API

”反思式三步翻译法” 应用于字幕翻译的尝试

吴恩达老师的「反思式三步翻译法」非常有效，它通过让模型自我审视翻译结果并提出改进建议，进一步提升翻译质量。然而，直接将该方法应用于 SRT 格式字幕翻译却存在一些挑战。 SRT 字幕格式的特殊要求 S

1年前
1.1k
4
评论

”反思式三步翻译法” 应用于字幕翻译的尝试

解决edge-tts在中国地区403错误：绕过限流新参数Sec-MS-GEC

微软 Edge 浏览器的“大声朗读”功能因其丰富的音色、对上百种语言的支持，以及自然的合成效果，在社区中被广泛“白嫖”使用。作为免费的语音合成服务，其几乎没有限制，且许多开发者也基于它开发了工具，其

1年前
8.5k
1
1

解决edge-tts在中国地区403错误：绕过限流新参数Sec-MS-GEC

CosyVoice:阿里最强语音克隆模型体验并封装API接口

在中文TTS技术上，最近一年涌现出众多优秀方案，如GPT-SoVITS、ChatTTS和Fish TTS等，阿里新推出的CosyVoice，效果最佳。

1年前
8.2k
21
9

CosyVoice:阿里最强语音克隆模型体验并封装API接口

豆包Marscode体验官:不写一行代码创建一个srt字幕翻译工具

最近，试用了字节跳动推出的 Marscode，感觉挺不错。最让人惊喜的是，它还自带了一个在线IDE，不仅拥有智能补全、预测和问答等强大功能，而且操作起来流畅的就像使用本地编辑器一样，完全感觉不到延迟。

1年前
3.2k
13
2

豆包Marscode体验官:不写一行代码创建一个srt字幕翻译工具

30行代码实现一个带UI界面的图片背景移除工具：并附带web网页

人工智能技术如火如荼，去除图片背景早已有n种不同实现不同模型，但相对来说安装配置环境略有些复杂，今天介绍一个及其简单的方式，仅需30行代码即可实现，当然功能相对也弱一些，要求不高的话，用起来还行。

1年前
2.9k
5
1

30行代码实现一个带UI界面的图片背景移除工具：并附带web网页

在python中使用edge-tts将字幕合成配音并对齐-免费用

微软edge浏览器中有个大声朗读功能，在任何页面均可免费使用，效果也还不错。那么能不能在任意地方调用这个朗读功能，从而实现将自己的文本合成语音呢？自然是可以的，pip中有个edge-tts库，可以很方

1年前
2.7k
4
评论

在python中使用edge-tts将字幕合成配音并对齐-免费用

基于豆包大模型为音视频生成字幕-完整代码可用版

为音频和视频生成对应字幕的方法有很多，之前介绍过本地模型 openai-whisper ，虽然需要下载模型配置复杂环境,但全免费无限制。今天介绍个更简单的方式，豆包提供的在线“音视频字幕生成”功能。

1年前
5.1k
1
2

基于豆包大模型为音视频生成字幕-完整代码可用版

语言无界：视频翻译技术原理与流程探索

受益于AI技术的快速进步，曾经颇具挑战性的视频翻译如今变得更加易于实现，尽管效果可能尚未达到完美。视频翻译较之文本翻译更为复杂，但核心依然是基于文字的翻译(尽管存在直接将声音转换成另一种语言声音的技

1年前
1.5k
点赞
3

语言无界：视频翻译技术原理与流程探索

玩转OpenAI-Whisper：语音识别一站式指南

各种支持多语言语音识别的模型通常都是在 openai-whisper 基础上再开发的，例如更快、更精确的faster-whisper。

1年前
4.6k
6
1

玩转OpenAI-Whisper：语音识别一站式指南

字幕翻译中空白行的产生和避免

在使用视频翻译配音软件时，经常会遇到字幕翻译结果出现空白字幕行的问题，本文就解释下为何会出现这种问题，以及如何能避免或降低出现该问题的方法。字幕翻译与普通翻译的不同字幕翻译与普通翻译之间存在显著差

1年前
941
2
2

字节火山引擎大模型赠送5亿token要不要

大家都知道字节的豆包模型非常非常便宜，但还不知道5月15日至8月30日期间，字节赠送5亿token免费用量，不仅有豆包模型，还有月之暗面模型，相当大方了属于是，白嫖谁不嫖，不嫖白不嫖，简单说下白嫖流程

1年前
14k
22
4

字节火山引擎大模型赠送5亿token要不要

ChatTTS使用中的几个问题和技巧

ChatTTS火出圈了，然而文档语焉不详，尤其在语气、韵律、发音人具体控制方面，经过反复实测和踩坑，终于明白一点，记录如下。

1年前
3.0k
7
评论

ChatTTS使用中的几个问题和技巧

搭了一个ChatTTS WebUI界面和api接口

最近几天，ChatTTS挺火，号称是专门为对话场景设计的文本转语音模型，拉下来玩了玩，开源版效果距离宣传视频还有不少差距，据说是故意限制。马马虎虎至少能用，先来搭个web界面和懒人包，使用方便点。

1年前
10k
25
12

搭了一个ChatTTS WebUI界面和api接口

基于ffmpeg.wasm创建一个在线视频处理工具箱

ffmpeg是一款强大的音频视频处理工具，使用非常广泛，几乎所有市面上常见的影音类剪辑类软件都会集成该工具，同样视频翻译配音软件中也将其集成在内。

2年前
3.8k
37
16

基于ffmpeg.wasm创建一个在线视频处理工具箱

基于阿里Paraformer模型打造中文语音识别

openai-whisper是流行的语音识别解决方案，支持数十种语言，对中文支持效果也不错，不过在使用低于large尺寸的模型时，效果仍是略差。相比而言，国内阿里系专注于中文识别的模型效果就好了不少。

2年前
2.3k
2
4

基于阿里Paraformer模型打造中文语音识别

前端视频处理利器：ffmpeg.wasm网页中预览非mp4视频并嵌入字幕

借助ffmpeg的wasm版本，可以实现本地网页处理视频、预览非mp4格式的视频等，最近用到了视频中分离音频、预览视频、截取分割等功能，简单记录下。获取 ffmpeg.wasm 首先需要执行npm以

2年前
5.7k
36
5

前端视频处理利器：ffmpeg.wasm网页中预览非mp4视频并嵌入字幕

白嫖edgeTTS 开发了一个在线文字合成语音web

根据输入文字和选项，组装 ssml 格式数据，然后创建websocket连接edge TTS服务器，得到返回音频数据后，合并创建mp3下载到本地。

2年前
3.1k
13
3

白嫖edgeTTS 开发了一个在线文字合成语音web