折腾了一周的时间,总算赶上挑战赛的尾巴提交了视频,顺便把代码也开源了。欢迎大家交流学习,但是需要企业API证书才能跑起来,门槛还是有点高。
功能介绍
- 保留老版本中的Yolo11进行物体识别分类,并画框
- 将VisionOS 26企业API中新加入的双目视频流功能生成深度视频放出来了,我之前有发过视频可以看一下
- Live AI Agent 中的链接 Gemini Live API 和 Qwen Omini Realtime 支持实时的双向通话和图片帧上传,让AI能看到VisionPro的视频流画面
- 面部表情识别,但是算法比较弱所以识别结果还比较粗暴
- 将视频帧截取并提交给Open Claw,完成淘宝图片搜索并加入购物车(我这边简单实现了一个web服务,而不是真正的OpenClaw方便搭建验证)
- 视频流中的图片保存到“我的回忆”中,并对第一张图生成卡通风格,可以查看历史回忆
26年XR展望
WWDC今年的图标颜色很简洁,不知道要放什么大招,希望不要是两年前的画饼 Apple Intelligence再来一次!
希望今年的VisionOS 27可以开放更能多的能力要不然真的要被其他MR头显超越了,比如Pico 的 Swan,最起码在开发者角度我是很看好的,最近也在研究他们的SDK和demo项目,后续会更新一些教程出来。
今年绝对是XR的爆发的一年,各种AI AR眼镜就不说了,MR头显也是会有很多不错的产品,我要加油做一些开发方面的准备了!