这很正版小米,mimo-v2-tts 的开发文档逻辑不通 !BUG 一堆,把用户当小白鼠

0 阅读2分钟

这很正版小米,mimo-v2-tts 的开发文档逻辑不通 !BUG 一堆

Xiaomi MiMo-V2-TTS

platform.xiaomimimo.com/#/docs/usag… 这是小米 mimo-v2-tts 的调用示例文档

关于其中的 “音频标签细粒度控制” 我是看不懂,到底要用 [] 控制还是用 () 控制呢?

文字描述和示例都对不上

从文字说明看,要用 [] 控制;从样例看要用 () 控制

从实际的情况来看,如果我用 () 控制生成的 wav 有概率把括号里面的内容读取出来!!!!!我的天,是真的离离原上谱,一岁一枯荣!!!

比如下面这句话是来自官网示例,括号里面的内容不会被读出来

  • (极其疲惫,有气无力)师傅……到地方了叫我一声……(长叹一口气)我先眯一会儿,这班加得我魂儿都要散了。

下面这个是我自己生成的,括号里面的内容就会被读取出来,我的服了

  • (躺在床上双腿压到窗口,声音又软又贱)宝贝……我今天还要加班……


我一开始以为是出现中英文括号混用的问题了,所以我找了一个把字符串显示为16进制的工具,发现并没有出现括号用错或者混入不可见字符等等乱七八糟的问题,就是小米 mimo-v2-tts 自己有概率会把括号里面的内容朗读出来!!!!但你这个括号是进行音频标签细粒度控制的呀?!

从图片可以看到,都是 ef bc 88 开头的,说明字符串本身是没有问题的


我把() 改成 [] 也不行


而且很恐怖的是,小米有的时候返回的声音和你输入的一点关系都没有,不知道是不是后端编排出问题了,把别人的声音返回给我了!!!


难怪这个 mimo-v2-tts 免费给大家使用,原来是把大家都当作小白鼠了啊?