记一次 Cursor Agent 功能编程体验

255 阅读2分钟

1. 写在最前面

之前为了优化测试流程,之前已经将开启 rtc 频道和开启 stt 任务做了一个简单的 Demo。这样就无需调用两次接口,但是使用下来发现一个问题,要测试转录能力,需要不停的在频道里说话。为了测试产品,一直在工位自言自语,就显得不是很智能了。

基于上述原因,所以笔者需要在 Demo 的页面上支持一个功能:上传本地音频,并将其推送到频道中,然后界面上展示转录内容。

考虑到笔者对 js 不是很熟练,在加上最近申请到了新的 Cursor 账户,所以想基于 Cursor 完成这次的功能的开发。

注:Cursor 新增的 agent 的功能真的香!

2. 开发记录

为了更深入的体验 agent 功能,笔者没有基于之前的 demo 做功能开发。而是直接让 agent 从头开发了一个。

2.1 RTC + RTT 的问题

agent 功能的优点是你让它帮你实现各功能,它基本可以提供给你一个可以指跑的实现。

不确定是不是我用的模型问题,我发现它实现有点跳脱。它没有使用我要求的产品而是基于浏览器的语音识别的能力帮我 Mock 了一下。

企业微信截图_93ae73fd-7ad4-4f91-9c49-18282754d8e8.png

2.2 解析结果的问题

  • 它首先内部定义了一个 mock 的结果。

    企业微信截图_5d85fadd-18e9-4b5f-a866-012437cdfe27.png

  • 我建议它使用 pb 格式做解析,然后它居然自己编了一个 pb 定义的格式做解析

    企业微信截图_e3c929a9-7214-4ef6-b6c9-7fbf56d12250.png

  • 在建议它用 pb 解析之后,它确实解析了,但是展示的内容有问题

    企业微信截图_a64ca09c-ded4-436f-9a9f-f1ff295e5c16.png

3. 效果展示

Cursor 为笔者设计的新版本 Demo 整体更圆润。总体上来说,开发体验更加丝滑,但是还是需要配合人工纠错才能完成整体开发。最终效果如下:

企业微信截图_0fe25acb-3819-4ee1-a907-3f89ed80e13f.png

4. 碎碎念

Cursor 真的节省了很多请教别人的时间,而且让开发人员可以跟着自己想法设计自己需要或者想要的功能。

  • 人最有魅力的时候,就是对周围一切的人和事物都不在意的时候。不在乎他人的评价,不在乎自己是否有存在感,放下执念,永远有自己的节奏和步调,永远保持松弛感。
  • 你可以阴郁,可以懒散,可以不适时地计较,过分敏感,可以有些不知足、暴躁、嫉妒、小气,但要记得拷问自我,必须追求善良,尽力坦荡,永远正直。
  • 大多数人的一生在二十多岁就结束了,剩下的日子都是机械的循环。我不希望自己成为这样无趣的人,我希望永远年轻,永远热泪盈眶。

5. 参考资料