超酷！苹果最新摄像头实时识别AI大模型，fastvlm视觉模型真机实测大家好，我是阿星👏🏻 苹果又搞事！开源了个实时

大家好，我是阿星👏🏻

苹果又搞事！开源了个实时识别视觉模型！摄像头真·实时识别看到的东西！

大家可以直接看视频！可戳👇🏻

新项目fast-vlm我原称之为 “眼巴巴看着你还会说话”的AI。 （支持中文提问+中文回答）

项目地址： github.com/apple/ml-fa…

1.5b小模型这么小！还能轻松识别你摄像头里的东西，自然语言给你描述的门清 （还可以修改提示词换个提问方式让它描述，比如：魔镜魔镜，我是不是最美的女人）

以下是亲测画面👇知道什么是大脑扫描图

知道你手机电力还剩多少（真不知道他怎么看清的，我一直在晃）

还知道小蓝杯是咖啡，还知道我穿的是毛衣！我感觉和卫衣质感很难区分。

不间断扫描，只要摄像头一直开着，他它就能实时描述你镜头里的东西。

而且还电脑手机都能玩，方便随时随地装起来🤔

官方详细功能如下有兴趣可以详读：

插播求关注嘻嘻😁

准备工作

版本对齐

开始之前，务必检查好自己的Xcode版本，iPhone版本和mac版本！因为我幻想过降低版本要求去运行，根本不行，这个模型必须达到以下标准才能跑，你在xcode里改版本也没用。

1、你的Xcode必须是16.3以上，苹果商店好像还没有，需要你自己去apple developer官网下载

下载地址： developer.apple.com/download/al…

2、如果你想用手机玩，必须是ios18.0以上

3、如果你想用mac玩，必须是macOS 15.4.1 以上。否则你连建构都不行orz

下载项目

打开项目，点绿色按钮下载项目

再次给你项目地址： github.com/apple/ml-fa…

或者克隆项目到本地，打开mac上的终端（windows指令让ds替你翻译）克隆命令：

git clone https://github.com/apple/ml-fastvlm.git

小白不要晕，输入指令就要打开终端，闭眼输入指令。

终端就是这个东西，黑盒子。就平装版的电脑，没包装照样用的意思。

克隆完了之后要记住项目地址，之后所有的代码都要在项目文件地址里执行，这一点不展开了，直接问deepseekv3去。

重中之重！手动下载模型

我们需要手动点一下这个1.5b的模型（模型是文件夹👀不是单文件）记得一定要放到checkpoints文件夹里，这文件夹就是专门用来装模型的。

关于安装顺序问题，我特别提醒大家👇

❝（小白可以跳过，直接输入下面的代码到终端黑盒子里就行）

你可能按照github的提示去装了，但是经常会提示no torch module

很容易犯的错除了上面的版本错误，没有使用 conda 环境中的 Python，而是使用了你自己系统别名的Python安装 PyTorch

或者你干脆就没有找对fastvlm的环境而是在base里安装的。

所以为了避免反复修改。我们直接按照下面这个顺序安装就行了。

1. 环境配置

# 创建并激活conda环境
conda create -n fastvlm python=3.10 -y
conda activate fastvlm

# 安装PyTorch (Apple Silicon优化版)
conda install -y pytorch torchvision torchaudio -c pytorch

# 安装项目依赖
cd /Users/xingyang/Downloads/code/ml-fastvlm
pip install -e .

2. 设置环境变量

export PYTORCH_ENABLE_MPS_FALLBACK=1
export PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.0

3. 模型路径确认

mkdir -p checkpoints
cd checkpoints
# 下载或放置模型到此目录
# 确保路径为 checkpoints/llava-fastvithd_1.5b_stage3_llm.int8

4. 运行推理

注意，--model-path 替换成你自己的路径，而且需要是绝对路径，以免歧义。

# 使用绝对路径确保无误
python predict.py \
    --model-path "$(pwd)/checkpoints/llava-fastvithd_1.5b_stage3_llm.int8" \
    --image-file "./test.png" \
    --prompt "描述这张图片"