别再迷信通用大模型了:从 97% 识别准确率到 95% 翻译准确率的技术保证 MenuKit.AI 诞生于一个年轻的互联网餐饮 SaaS 团队

59 阅读7分钟

MenuKit.AI 诞生于一个年轻的互联网餐饮 SaaS 团队。
在为餐饮独立门店提供数字化工具的过程中,我们发现,能在激烈竞争中生存并成功扩张的门店,往往都有一个共同点——他们找到了属于自己的“爆款商品”。
当我们把这个观察放到产品思考中,我们在问自己:
能否通过我们的工具,让商家和顾客都更清晰地看见门店的核心竞争力——菜单上的商品?
又如何帮助顾客基于菜单商品,获得更符合个人喜好的消费体验?

商品,是餐饮门店价值的载体。
它在商家与顾客之间流转,构成了在地消费体验的核心一环。
而商品信息的丰富度及准确度,决定了这份价值能否被理解、被传递。
于是,我们聚焦于商品信息流转的起点——信息的准确呈现。

01 / 那些“看不明白还不好意思纠错”的菜单们

在许多独立门店或传统餐厅里,菜单往往以纸质、手写、打印等形式存在。
我们常见到拼写不规范、标点混乱、排版错乱等问题——这些细节虽小,却足以影响顾客的第一印象及点单决策。

菜单文字识别与纠错示例

“信息的准确呈现”,不仅是技术指标,更是信任的起点。
当我们开始构建 MenuKit.AI 时,目标其实很简单:
让菜单看得懂,让顾客点得明白。
对我们而言,这意味着:

  • 要提供一套稳定、可靠的菜单识别与翻译工具;
  • 要能识别手写粘连、装饰字体、模糊图片;
  • 要能理解菜单文字背后的食材、做法与文化语境;
  • 并最终生成一份新的菜单,它保留原有风格,让每位顾客都能轻松理解。

02 / 提升识别准确率:让 OCR 看懂真实世界的菜单

“上传菜单 → 识别+翻译 → 核对 → 输出”
看似只需四步的操作,背后却是多模型协同的复杂过程。
菜单从来不是标准化文档。字体、排版、印刷方式乃至拍照反光,都让传统 OCR(光学字符识别)算法难以准确识别。
为了解决这些问题,我们构建了一套融合 计算机视觉、深度学习与NLP分词的视觉理解模型,让 OCR 识别准确率达到97%以上。

OCR 识别效果测试

图示|MenuKit.AI OCR 识别效果测试
我们选取了 20 张不同类型的菜单样本进行模型验证,包括规则菜单、不规则布局菜单、反光及低分辨率拍摄图片。
MenuKit.AI 的视觉理解模型在文本检测与识别任务中取得 97%+ 的整体识别准确率,对手写粘连、打印装饰字体及光照不均样本均能稳定输出结构化结果。

核心技术:

菜单专用 OCR 模型:

  • 基于真实门店样本训练,结合对比度增强、分辨率提升、去噪等图像预处理技术;
  • 可准确识别手写、打印、光照不均及多语种混排的菜单。

交叉检验与自动纠错:

  • 模型对识别文本与上下文图像进行比对,自动修正错误字符与缺漏字段。

语义检测与结构提取:

  • 精准检测文字区域,并通过语义分析,对商品名、价格、描述、标签等信息进行结构化分类;
  • 为后续翻译和菜单生成提供标准化数据。

结果是:
MenuKit.AI 不仅“看得见”菜单上的文字,更能“理解”文字所处的语义位置与分类关系。

03 / 提升翻译准确率:从直译到语义理解

传统翻译工具在面对商品名称、地方方言或文化典故时,往往陷入“直译”陷阱——像典型的福建名菜“佛跳墙”,如果缺乏语境支持,很难翻译出准确含义。
为此,我们构建了基于 检索增强生成 + 大语言模型(RAG + LLM)的翻译架构,并以 餐饮知识库(F&B Knowledge Base, KB) 为核心支撑,让模型在“有依据、有规则”的框架中进行语义理解与翻译生成。

在菜单翻译中,我们保留商品名称和文化的多样性,不做实体归一化处理,以免丢失品牌/商品特色,仅使用 KB 提供的字段作为参考进行组合翻译:
KB 包含 name, main_ingredients, flavor_profile, cooking_method, description, notes 等标签。

翻译规则:

  1. 自定义标签优先:优先使用源语自定义标签,不足部分用 KB 或 LLM 补齐;

  2. 自定义描述优先:翻译源语中的描述,若无则用 KB 或 LLM 补齐;

  3. 输出字段:商品名、标签(自定义/主料/口味)、描述;

  4. 商品名模糊匹配规则:

    • 命中 → 取 KB 译文;
    • 部分命中 → 取 KB 字段并保留品牌前缀;
    • 未命中 → 参考翻译规则,由 LLM 生成。

这种方式既保证了翻译的一致性,又保留了餐饮文化的多样性。
无论是“黎记海南鸡饭”还是“加东叻沙”,AI 都能在语义层面理解其含义与文化背景,输出地道且可信的译文。

核心组件:

餐饮知识库(F&B Knowledge Base):

  • 包含商品名、食材、烹饪方式、风味、文化注释等中英对照内容(一期覆盖东南亚菜系与部分咖啡饮品词典);

  • 为 AI 翻译提供专业领域知识支撑。

翻译规则与提示词体系:

  • 六大类翻译规则覆盖商品名、烹饪法、风味、文化背景、大小写与风格一致性;

  • 参考《外事办菜单英文译法》白皮书标准。

RAG+LLM 流程编排:

  • 翻译前先模糊匹配检索知识库中相关条目,再由模型生成翻译结果;

  • 通过结构化规则约束,显著降低 AI 幻觉与翻译术语不一致问题。

最终实现95%以上翻译准确率,并在人工校对与模型测试中得到验证。

翻译准确率测试对比

图示|MenuKit.AI 翻译准确率测试对比
我们选取了 106 个来自真实餐厅菜单的商品名称,分别通过传统机器翻译(MT)、国际通用大模型(GPT 系列)、国内通用大模型,以及 MenuKit.AI 翻译流程(RAG + LLM + F&B 知识库)进行对比测试。
测试结果显示:传统机器翻译在文化语境和食材识别方面准确率不足 60%,通用大模型在食材做法与地方菜名上表现不稳定;而 MenuKit.AI 在语义理解与文化还原场景下实现了 95%+ 的翻译准确率。

04 / 一张“有菜单样子”的菜单

多数翻译工具通过“贴片式”展示翻译内容,虽然能保留原图布局,但用户体验不佳。
我们希望翻译结果不仅准确,还优雅、美观、可用。

在输出阶段,MenuKit.AI 会基于标签与结构信息自动生成排版,通过字号、色彩、分栏等方式展示不同层级的菜单信息。
最终输出的结果,是一张结构清晰、布局合理的双语菜单,既能交付打印,还有一个可分享的线上连接。
在商品名称展示上,我们特别保留了原文对照,让本地顾客与异地访客都能轻松阅读,同时保留文化特色与语言魅力。

上传一张菜单,得到的依然是一张“菜单”—— 熟悉的样子,更清晰的表达。

结语:让可靠成为一种工程能力

在MenuKit.AI我们追求的是看得见的准确性。
从 97% 的 OCR 识别准确率,到 95% 的翻译准确率,再到有菜单样式的菜单输出,每一个环节都旨在为餐饮门店提供稳定、可靠的工具服务。
我们希望通过这份“菜单”服务,让商家看见菜单背后的商品,看见自己服务价值载体的传递,同时也让顾客看见菜单背后的信息。
当信息变得透明,信任就会自然发生。