试了一下 llama.cpp 最新支持的多模态大模型 LLaVA。能准确识别驾照上的信息,并输出为 json 格式。
借助图片识别能力的革新,后续估计会影响到 OCR 产品的识别准确度,以及无障碍应用,例如帮视障人士描述图片上的内容;还有 CMS 工具,上传一张图片后,能描述内容并写道 alt 标签内,获取图片搜索的流量。你还能想到哪些应用场景呢?
江昪于2023-10-24 08:53发布的图片
评论