前言
《三十行代码》
深夜的屏幕亮着
三十行代码
在光标里摇晃
像一串未完成的年轮咖啡凉在杯底
倒映着
我日渐稀疏的头顶
和那些被Ctrl+C的日子闹钟在清晨响起
我按下贪睡键
仿佛这样就能
把而立之年推迟而deadline
正在注释里
悄悄生长
像一根倒计时的指针
刺破我的视网膜三十岁
我还在写bug
而时光
早已在我的代码里
埋下了
无法修复的漏洞
DeepSeek写的也太抽象了!!!
roadmap
目标是个大杂烩项目,定位是家庭或个人助理
- 同声传译
- 长视频知识库和实时关键帧问答(能干什么?打LOL时BAN PCIK,实时陪聊吐槽役?)
- 定时更新rss feed,整理感兴趣的新闻
- todo.....
产品架构
去年初用SeamlessStreaming搞了个同声传译,但是首先它不支持商用,然后本地跑了下有点带不动,因此重新换了个架构
原本架构
- 说:voice meeter->seamless streaming->voice changer
- 听:拼音输入法->转翻译
勉强能用,但是太low了,也不太能向产品转型(虽然现在也很low)
现在架构
voice meeter(虚拟麦克风)->udp传输服务端->whisper转录->dify工作流翻译和上下文总结->chat-tts生成语音->返回QT客户端展示字幕,播放语音
DeepSeek
作为前端苦手,后端搬砖人,已经在CRUD的生活中丧失了写UI的能力,还好有DeepSeek
- 一个是QT客户端,接收字幕并播放音频
- 另一个是gradio,管理udp连接,用来语音输入用
然后是服务端,用DeepSeek写的gradio udp管理连接
然后在dify写了个工作流,将翻译内容发给dify,根据工作流翻译和处理
然后传给chat-tts生成语音传给qt客户端
voice-meeter的话就是测试时用美国之声做一个虚拟输入源用,或者后续接入其他游戏音频作为虚拟麦克风(VRCHAT说的就是你) 这个项目80%的代码都是让DeepSeek+其他AI写的(没办法它太卡了),实际工作流用的MINIMAX的(人家送的token有点多,上下文也够长,测试自用完全够了)
当然生成的代码有点小bug,例如长音频截断、非人声过滤部分还要自己调整,总的来说其实框架搭好,没有太多需要操心的事了
《重构》
删除键按下
二十七年的注释
在回收站里
堆成一座巴别塔我站在三十岁的
if语句前
else后面
是未曾加载的远方这一次
不再等待补丁
我要把人生
从beta版
迭代到1.0让每个变量
都指向
真实的自己
让每个循环
都奔向
想要的生活这一次
我要把生命
从单线程
改写成
多进程