超酷!苹果最新摄像头实时识别AI大模型,fastvlm视觉模型真机实测

645 阅读6分钟

大家好,我是阿星👏🏻

苹果又搞事!开源了个实时识别视觉模型!摄像头真·实时识别看到的东西!

大家可以直接看视频!可戳👇🏻

新项目fast-vlm我原称之为 “眼巴巴看着你还会说话”的AI(支持中文提问+中文回答)

项目地址: github.com/apple/ml-fa…

图片

1.5b小模型这么小!还能轻松识别你摄像头里的东西,自然语言给你描述的门清 (还可以修改提示词换个提问方式让它描述,比如:魔镜魔镜,我是不是最美的女人)

以下是亲测画面👇知道什么是大脑扫描图

图片

知道你手机电力还剩多少(真不知道他怎么看清的,我一直在晃)

图片

还知道小蓝杯是咖啡,还知道我穿的是毛衣!我感觉和卫衣质感很难区分。

图片

不间断扫描,只要摄像头一直开着,他它就能实时描述你镜头里的东西。

而且还电脑手机都能玩,方便随时随地装起来🤔

图片

官方详细功能如下有兴趣可以详读:

图片

插播求关注嘻嘻😁

准备工作

版本对齐

开始之前,务必检查好自己的Xcode版本,iPhone版本和mac版本!因为我幻想过降低版本要求去运行,根本不行,这个模型必须达到以下标准才能跑,你在xcode里改版本也没用。

1、你的Xcode必须是16.3以上,苹果商店好像还没有,需要你自己去apple developer官网下载

下载地址: developer.apple.com/download/al…

图片

2、如果你想用手机玩,必须是ios18.0以上

3、如果你想用mac玩,必须是macOS 15.4.1 以上。否则你连建构都不行orz

下载项目

打开项目,点绿色按钮下载项目

再次给你项目地址: github.com/apple/ml-fa…

图片

或者克隆项目到本地,打开mac上的终端(windows指令让ds替你翻译)克隆命令:

git clone https://github.com/apple/ml-fastvlm.git

小白不要晕,输入指令就要打开终端,闭眼输入指令。

终端就是这个东西,黑盒子。就平装版的电脑,没包装照样用的意思。

克隆完了之后要记住项目地址,之后所有的代码都要在项目文件地址里执行,这一点不展开了,直接问deepseekv3去。

图片

重中之重!手动下载模型

图片

我们需要手动点一下这个1.5b的模型(模型是文件夹👀不是单文件)记得一定要放到checkpoints文件夹里,这文件夹就是专门用来装模型的。

图片

关于安装顺序问题,我特别提醒大家👇

❝(小白可以跳过,直接输入下面的代码到终端黑盒子里就行)

你可能按照github的提示去装了,但是经常会提示no torch module

很容易犯的错除了上面的版本错误,没有使用 conda 环境中的 Python,而是使用了你自己系统别名的Python安装 PyTorch

或者你干脆就没有找对fastvlm的环境而是在base里安装的。

所以为了避免反复修改。我们直接按照下面这个顺序安装就行了。

1. 环境配置

# 创建并激活conda环境
conda create -n fastvlm python=3.10 -y
conda activate fastvlm

# 安装PyTorch (Apple Silicon优化版)
conda install -y pytorch torchvision torchaudio -c pytorch

# 安装项目依赖
cd /Users/xingyang/Downloads/code/ml-fastvlm
pip install -e .

2. 设置环境变量

export PYTORCH_ENABLE_MPS_FALLBACK=1
export PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.0

3. 模型路径确认

mkdir -p checkpoints
cd checkpoints
# 下载或放置模型到此目录
# 确保路径为 checkpoints/llava-fastvithd_1.5b_stage3_llm.int8

4. 运行推理

注意,--model-path 替换成你自己的路径,而且需要是绝对路径,以免歧义。

# 使用绝对路径确保无误
python predict.py \
    --model-path "$(pwd)/checkpoints/llava-fastvithd_1.5b_stage3_llm.int8" \
    --image-file "./test.png" \
    --prompt "描述这张图片"

Mac/iPhone 上开始构建

不管你用苹果手机还是电脑玩,都必须在电脑上装个Xcode,第一part已经让大家装了。

我们现在在Xcode里打开项目,注意不是新建!千万别点错了,Xcode的UI不太好用,进错就晕了。

图片

点击红框里的文件,

图片

进去第一件事,签名。苹果的项目不签名不让用。

team需要你手动选择,如果没有注册过team你需要去apple developer里注册,每年是600(不写几个小游戏你对得起注册费吗)。

任何ios app上架都必须有这个注册费,否则没法上架。但是已经比国内应用商店上架省劲多了。

图片

注意bundle identifier这个东西必填!必须修改为以下格式👇标识符自己先起一个带入试试。

com.你自己的标识符.FastVLM

然后勾选产品(英文界面product),要么mac要么手机,推荐你用mac!

因为手机内存不够容易闪退。

图片

摄像头会自动开启,接着就可以识别了

图片

每次刷新的识别描述有些许差异,都是实时的哦~

图片

嘻嘻,我感觉超酷的!快动手试一试吧~

我是阿星,我们下期再见!

往期文章: