1. 写在最前面
之前为了优化测试流程,之前已经将开启 rtc 频道和开启 stt 任务做了一个简单的 Demo。这样就无需调用两次接口,但是使用下来发现一个问题,要测试转录能力,需要不停的在频道里说话。为了测试产品,一直在工位自言自语,就显得不是很智能了。
基于上述原因,所以笔者需要在 Demo 的页面上支持一个功能:上传本地音频,并将其推送到频道中,然后界面上展示转录内容。
考虑到笔者对 js 不是很熟练,在加上最近申请到了新的 Cursor 账户,所以想基于 Cursor 完成这次的功能的开发。
注:Cursor 新增的 agent 的功能真的香!
2. 开发记录
为了更深入的体验 agent 功能,笔者没有基于之前的 demo 做功能开发。而是直接让 agent 从头开发了一个。
2.1 RTC + RTT 的问题
agent 功能的优点是你让它帮你实现各功能,它基本可以提供给你一个可以指跑的实现。
不确定是不是我用的模型问题,我发现它实现有点跳脱。它没有使用我要求的产品而是基于浏览器的语音识别的能力帮我 Mock 了一下。
2.2 解析结果的问题
-
它首先内部定义了一个 mock 的结果。
-
我建议它使用 pb 格式做解析,然后它居然自己编了一个 pb 定义的格式做解析
-
在建议它用 pb 解析之后,它确实解析了,但是展示的内容有问题
3. 效果展示
Cursor 为笔者设计的新版本 Demo 整体更圆润。总体上来说,开发体验更加丝滑,但是还是需要配合人工纠错才能完成整体开发。最终效果如下:
4. 碎碎念
Cursor 真的节省了很多请教别人的时间,而且让开发人员可以跟着自己想法设计自己需要或者想要的功能。
- 人最有魅力的时候,就是对周围一切的人和事物都不在意的时候。不在乎他人的评价,不在乎自己是否有存在感,放下执念,永远有自己的节奏和步调,永远保持松弛感。
- 你可以阴郁,可以懒散,可以不适时地计较,过分敏感,可以有些不知足、暴躁、嫉妒、小气,但要记得拷问自我,必须追求善良,尽力坦荡,永远正直。
- 大多数人的一生在二十多岁就结束了,剩下的日子都是机械的循环。我不希望自己成为这样无趣的人,我希望永远年轻,永远热泪盈眶。