获得徽章 0
【调研记录】绘本对话类音频怎么生成好呢
记录最近生成绘本项目做的一些调研(图片 + 对话音频 + 字幕)
1. 图片:
目前只搞单张图片AI生成还比较好解决,多张图片保证画风人物一致性 等到时候再去解决
2. 对话音频: 当前使用了 minimax的TTS服务 也调研了11lab的音频服务。
目标:文字能够按照角色生成对应音色的音频 + 字幕(比如女儿和父亲对话,需要生成时分别使用小女孩 + 成年男性的音色轮流生成, 如果再优化还需要考虑旁白音色)
Minimax:
❌ 劣势:目前API只支持单个音色,多个音色目前只能笨办法,拼接音频 和 字幕
11lab
❌ 劣势:不支持返回字幕
最终还是继续使用minimax,让用户录入时手动去选择音色, 后续可以考虑使用一些AI识别的手段提升效率。
展开
评论
点赞
Cursor开启年度会员后,开始频繁高强度使用Cursor,最近对使用Cursor的使用做了一些总结
1. 排查问题
1.1 明确问题
在写提示词的时候,详细描述问题,除了提供报错信息外,可以把预期和实际表现明确表述出来
预期:输出字段为XXX
实际:表现字段为YYY
1.2 提供更多参考信息
代码片段 + 更多文件 + 错误信息(代码+图片+日志等等)
本周遇到了一个引起缓存引起的问题,一直采用后置主动清空缓存的方式解决,后面让Cursor分析整个文件夹,定位到时一个缓存配置引起,调整配置 从根本上解决问题
2. 开发类似的功能
开发了A功能后,B页面需要实现类似的功能,
之前:从0到1 逐步描述我想要的功能,在B页面实现
现在:添加A功能做为参考代码,希望在B上面实现这个功能,同时列出差异点(最好结合实例数据做参考)
1. 排查问题
1.1 明确问题
在写提示词的时候,详细描述问题,除了提供报错信息外,可以把预期和实际表现明确表述出来
预期:输出字段为XXX
实际:表现字段为YYY
1.2 提供更多参考信息
代码片段 + 更多文件 + 错误信息(代码+图片+日志等等)
本周遇到了一个引起缓存引起的问题,一直采用后置主动清空缓存的方式解决,后面让Cursor分析整个文件夹,定位到时一个缓存配置引起,调整配置 从根本上解决问题
2. 开发类似的功能
开发了A功能后,B页面需要实现类似的功能,
之前:从0到1 逐步描述我想要的功能,在B页面实现
现在:添加A功能做为参考代码,希望在B上面实现这个功能,同时列出差异点(最好结合实例数据做参考)
展开
评论
1
作为小白,本周在业余时间学习了一些web3的基础知识,做了一点整理和分析。
1. 账号体系
web2:依赖中心化的平台管理账户(用户名、密码等信息)
🌰:一个大V去带货赚钱,需要小红书、抖音和B站都注册一遍,才能从各大平台赚钱。
web3:
用户自己手动创建账户(两个字符串)
私钥(密码):,普遍用12个单词形式的助记词便于记忆
公钥(账户):账户,便于在各个平台上使用,比如收款和付款。
🌰:一个大V求打赏,把账户发出来,粉丝们可以各种网络(以太坊网络、币安网络等等)给这个账户打钱
2. 数据互通
web2 用户的数据很难在各大平台上切换
web3 用户的数字货币可以从太坊网络、币安网络等各种网络切换(跨网络 需要gas费,类似转账手续费)
1. 账号体系
web2:依赖中心化的平台管理账户(用户名、密码等信息)
🌰:一个大V去带货赚钱,需要小红书、抖音和B站都注册一遍,才能从各大平台赚钱。
web3:
用户自己手动创建账户(两个字符串)
私钥(密码):,普遍用12个单词形式的助记词便于记忆
公钥(账户):账户,便于在各个平台上使用,比如收款和付款。
🌰:一个大V求打赏,把账户发出来,粉丝们可以各种网络(以太坊网络、币安网络等等)给这个账户打钱
2. 数据互通
web2 用户的数据很难在各大平台上切换
web3 用户的数字货币可以从太坊网络、币安网络等各种网络切换(跨网络 需要gas费,类似转账手续费)
展开
评论
1