从 MarkItDown 的流行,看 AI 产品的关键缺口:路由层

5 阅读4分钟

从 MarkItDown 的流行,看 AI 产品的关键缺口:路由层

最近在浏览 GitHub 热门项目时,我注意到像 MarkItDown 这样的项目持续高热。它的核心能力其实非常简单:把各种文件统一转换为 Markdown 格式,再交给 AI 使用

但正是这个“简单能力”,背后反映出一个非常关键、且尚未被充分解决的问题。


一、为什么“统一格式”是一个刚需

在 AI 成熟之前,信息是以极其分散的形式存在的:

  • PDF、Word、PPT

  • 图片、扫描件、网页

  • 企业系统中的结构化数据

  • 个人设备中的零散记录

这些数据不仅格式不同,而且可读性差异极大

  • 有的可以直接复制文本

  • 有的是图片里的文字(需要 OCR)

  • 有的是图表、示意图(需要理解)

而 AI 的一个基本前提是:

输入必须是“可理解”的结构化文本

Markdown,恰好成为当前阶段最适合 AI 处理的中间格式

因此:

“把一切转成 Markdown”本身,就是一个高价值需求。


二、问题的关键不在“转换”,而在“路由”

以一个复杂 PDF 为例:

  • 正文部分 → 直接提取文本

  • 图片中的文字 → 需要 OCR

  • 图表 / 示意图 → 需要多模态模型理解

  • 装饰性图片 → 应该忽略

这意味着:

一个文件内部,就已经包含多种处理路径

如果只是简单转换,会出现:

  • 信息丢失(没做 OCR)

  • 成本过高(全走大模型)

  • 结果混乱(无结构处理)

所以真正的难点是:

如何在处理过程中,做出“正确且高效”的路径选择(Routing)


三、为什么“路由能力”至关重要

一个优秀的系统应该做到:

  • 精准:该 OCR 的 OCR,该理解的理解

  • 节省:尽量减少不必要的模型调用

  • 稳定:相同输入有一致输出

  • 无感:用户无需干预

本质上,这是在解决一个核心问题:

在质量、成本、体验之间做最优平衡

如果路由能力做不好:

  • 用户会觉得“麻烦”
  • 成本不可控
  • 结果不可信

四、为什么这个问题还没有被很好解决

尽管需求明确,但目前仍然缺乏成熟方案,原因主要有四个:

1. 当前阶段仍在“造引擎”

整个行业仍在构建基础能力:

  • 更强的模型

  • 更快的推理

  • 更好的 Agent

而不是在优化最终用户体验。

可以类比为:

现在还是“蒸汽机时代”,还没到“家用汽车时代”


2. 2C 产品的难点在体验,而不是技术

企业产品可以容忍:

  • 配置复杂

  • 操作繁琐

但个人产品必须做到:

  • 简单

  • 稳定

  • 无需学习成本

而“智能路由”恰恰是体验最难做的一层。


3. 个体需求高度个性化

企业场景是标准化的:

  • 客服

  • 编程

  • 数据分析

而个人知识管理是非标准的:

  • 每个人结构不同

  • 输入习惯不同

  • 判断标准不同

这导致:

很难做一个“通用产品”


4. 商业回报不明确

企业用户:

  • 有明确 ROI

  • 愿意付费

个人用户:

  • 使用深度不稳定

  • 付费意愿不确定

因此:

大厂不优先做,小团队难以持续投入


五、当前生态的真实状态

目前 GitHub 上的热门项目,大致分为三类:

  1. 基础设施(主流)

    • 模型推理
    • Agent 框架
    • 开发工具
  2. 开发者工具(次主流)

    • MarkItDown
    • 各类 CLI 工具
  3. 实验性项目

    • 各类 AI workflow / agent demo

可以看出:

整体仍停留在“开发者工具层”,而非“用户产品层”****


六、真正缺失的一层:路由与体验层

当前 AI 技术栈可以这样理解:

模型层(已成熟)
↓
工具层(正在成熟)
↓
❗ 路由 / 调度 / 体验层(缺失)
↓
用户产品层(尚未出现)

而你关注的,正是这个“缺失层”。


七、一个重要趋势判断

未来一段时间,很可能会出现这样的变化:

  • 模型能力不再是核心差异

  • 工具能力逐渐标准化

  • 路由能力成为关键竞争力

甚至可以说:

未来 AI 产品的核心,不是模型,而是 Router。


八、个人路径:Vibe Coding 的意义

在缺乏成熟 2C 产品的情况下,个人用户的现实路径是:

  • 不为“产品”付费

  • 而是为“能力”付费(Token / 算力 / Coding 工具)

  • 自己构建符合需求的系统

也就是:

用 Vibe Coding,换取个性化体验

这意味着:

未来,Vibe Coding 对个人的重要性会持续上升


总结

MarkItDown 的流行,本质上揭示了一个关键问题:

数据格式统一只是第一步,真正困难的是如何智能地处理这些数据。

而这个问题的核心,不在模型,而在:

路由(Routing)能力的设计。

在当前阶段,这一层仍然是空缺的。

也正因此,这里既是难点,也是机会。

:::