大家好,我是阿星👏🏻
苹果又搞事!开源了个实时识别视觉模型!摄像头真·实时识别看到的东西!
大家可以直接看视频!可戳👇🏻
新项目fast-vlm我原称之为 “眼巴巴看着你还会说话”的AI。 (支持中文提问+中文回答)
项目地址: github.com/apple/ml-fa…
1.5b小模型这么小!还能轻松识别你摄像头里的东西,自然语言给你描述的门清 (还可以修改提示词换个提问方式让它描述,比如:魔镜魔镜,我是不是最美的女人)
以下是亲测画面👇知道什么是大脑扫描图
知道你手机电力还剩多少(真不知道他怎么看清的,我一直在晃)
还知道小蓝杯是咖啡,还知道我穿的是毛衣!我感觉和卫衣质感很难区分。
不间断扫描,只要摄像头一直开着,他它就能实时描述你镜头里的东西。
而且还电脑手机都能玩,方便随时随地装起来🤔
官方详细功能如下有兴趣可以详读:
插播求关注嘻嘻😁
准备工作
版本对齐
开始之前,务必检查好自己的Xcode版本,iPhone版本和mac版本!因为我幻想过降低版本要求去运行,根本不行,这个模型必须达到以下标准才能跑,你在xcode里改版本也没用。
1、你的Xcode必须是16.3以上,苹果商店好像还没有,需要你自己去apple developer官网下载
下载地址: developer.apple.com/download/al…
2、如果你想用手机玩,必须是ios18.0以上
3、如果你想用mac玩,必须是macOS 15.4.1 以上。否则你连建构都不行orz
下载项目
打开项目,点绿色按钮下载项目
再次给你项目地址: github.com/apple/ml-fa…
或者克隆项目到本地,打开mac上的终端(windows指令让ds替你翻译)克隆命令:
git clone https://github.com/apple/ml-fastvlm.git
小白不要晕,输入指令就要打开终端,闭眼输入指令。
终端就是这个东西,黑盒子。就平装版的电脑,没包装照样用的意思。
克隆完了之后要记住项目地址,之后所有的代码都要在项目文件地址里执行,这一点不展开了,直接问deepseekv3去。
重中之重!手动下载模型
我们需要手动点一下这个1.5b的模型(模型是文件夹👀不是单文件)记得一定要放到checkpoints文件夹里,这文件夹就是专门用来装模型的。
关于安装顺序问题,我特别提醒大家👇
❝(小白可以跳过,直接输入下面的代码到终端黑盒子里就行)
你可能按照github的提示去装了,但是经常会提示no torch module
很容易犯的错除了上面的版本错误,没有使用 conda 环境中的 Python,而是使用了你自己系统别名的Python安装 PyTorch
或者你干脆就没有找对fastvlm的环境而是在base里安装的。
所以为了避免反复修改。我们直接按照下面这个顺序安装就行了。
1. 环境配置
# 创建并激活conda环境
conda create -n fastvlm python=3.10 -y
conda activate fastvlm
# 安装PyTorch (Apple Silicon优化版)
conda install -y pytorch torchvision torchaudio -c pytorch
# 安装项目依赖
cd /Users/xingyang/Downloads/code/ml-fastvlm
pip install -e .
2. 设置环境变量
export PYTORCH_ENABLE_MPS_FALLBACK=1
export PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.0
3. 模型路径确认
mkdir -p checkpoints
cd checkpoints
# 下载或放置模型到此目录
# 确保路径为 checkpoints/llava-fastvithd_1.5b_stage3_llm.int8
4. 运行推理
注意,--model-path 替换成你自己的路径,而且需要是绝对路径,以免歧义。
# 使用绝对路径确保无误
python predict.py \
--model-path "$(pwd)/checkpoints/llava-fastvithd_1.5b_stage3_llm.int8" \
--image-file "./test.png" \
--prompt "描述这张图片"
Mac/iPhone 上开始构建
不管你用苹果手机还是电脑玩,都必须在电脑上装个Xcode,第一part已经让大家装了。
我们现在在Xcode里打开项目,注意不是新建!千万别点错了,Xcode的UI不太好用,进错就晕了。
点击红框里的文件,
进去第一件事,签名。苹果的项目不签名不让用。
team需要你手动选择,如果没有注册过team你需要去apple developer里注册,每年是600(不写几个小游戏你对得起注册费吗)。
任何ios app上架都必须有这个注册费,否则没法上架。但是已经比国内应用商店上架省劲多了。
注意bundle identifier这个东西必填!必须修改为以下格式👇标识符自己先起一个带入试试。
com.你自己的标识符.FastVLM
然后勾选产品(英文界面product),要么mac要么手机,推荐你用mac!
因为手机内存不够容易闪退。
摄像头会自动开启,接着就可以识别了
每次刷新的识别描述有些许差异,都是实时的哦~
嘻嘻,我感觉超酷的!快动手试一试吧~
我是阿星,我们下期再见!
往期文章: