开源我参加Google挑战赛的项目VisionPro + Gemini Live

2026-03-25 43 阅读2分钟

折腾了一周的时间，总算赶上挑战赛的尾巴提交了视频，顺便把代码也开源了。欢迎大家交流学习，但是需要企业API证书才能跑起来，门槛还是有点高。

功能介绍

保留老版本中的Yolo11进行物体识别分类，并画框
将VisionOS 26企业API中新加入的双目视频流功能生成深度视频放出来了，我之前有发过视频可以看一下

Live AI Agent 中的链接 Gemini Live API 和 Qwen Omini Realtime 支持实时的双向通话和图片帧上传，让AI能看到VisionPro的视频流画面

面部表情识别，但是算法比较弱所以识别结果还比较粗暴

将视频帧截取并提交给Open Claw，完成淘宝图片搜索并加入购物车(我这边简单实现了一个web服务，而不是真正的OpenClaw方便搭建验证)

视频流中的图片保存到“我的回忆”中，并对第一张图生成卡通风格，可以查看历史回忆

26年XR展望

WWDC今年的图标颜色很简洁，不知道要放什么大招，希望不要是两年前的画饼 Apple Intelligence再来一次！

希望今年的VisionOS 27可以开放更能多的能力要不然真的要被其他MR头显超越了，比如Pico 的 Swan，最起码在开发者角度我是很看好的，最近也在研究他们的SDK和demo项目，后续会更新一些教程出来。

今年绝对是XR的爆发的一年，各种AI AR眼镜就不说了，MR头显也是会有很多不错的产品，我要加油做一些开发方面的准备了！