前言: 两年时间,我真正经历了,从产品调研到产品开发,从零用户到百万日活千万用户,从0到1打造了一款爆款APP。 结合自身的经历和个人的感悟分享给大家
一、第一步:确定你想要打造APP行业分类
团队在分析教育界的app有哪些,市面上有拍照搜题,网课app,学英语等等。由于网课有学而思网校和培优。还缺少拍照搜题工具app引流。 但是当时作业帮和小猿搜题已经做的很好了。经过大量的调研,18年k12教育 在线人数超过1个亿,团队觉得还是存在巨大的机会。于是最后确认了做拍照搜题。
二、第二步:分析行业TOP APP商业模式
我们分析当时日活最高的appTOP
1、作业帮
2、小猿搜题
3、学霸君
1、作业帮
| 买点分析: 通过拍照搜题,拍照批题,单词查询等获取流量,通过付费答疑的业务开始赚钱,直播课变现等等 |
|---|
2、小猿搜题
| 买点分析:通过拍照搜题,拍照批题,单词查询等获取流量,通过电商的业务变现等等 |
|---|
3、 学霸君
| 买点分析:通过拍照搜题,翻译等工具获取流量。学霸君如何倒下 |
|---|
总结: 都是通过免费拍照搜题,拍照批题,练习等工具产品获取流量,流量有了当然变现的方式太多了,电商,直播课,广告,商业变现等方式。
三、第三步:核心指标达到行业TOP
-
梳理核心指标
- 1、命中率 (85%)
- 2、优质率 (60%)
-
产品架构梳理
-
1、题库是基础,开发了题目生产系统,通过创建题目
-
2、自建OCR(成本,拍题批改的基础)
(图片来自: mp.weixin.qq.com/s/dVfnmgYDU…
算法模型:
ocr 文本行检测 => 方向检测 => 文本识别三大块
-
3、检索算法
- 一个典型的Query会被分解成包含文本的部分和包含图形的部分,文本部分通过OCR识别成文本进行文本检索,图形部分通过深度学习向量化然后使用向量检索。
本系统的基础检索部分是由Elastic Search(Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口)来实现,基础相关性打分主要用于召回,为后续LTR排序做好准备。BM25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下BM25算法:我们有一个Query和一批文档D,现在要计算Query和每篇文档D之间的相关性分数,我们的做法是,先对Query进行切分,得到单词qi,然后单词的分数由这部分组成:单词qi和D之间的相关性,每个单词的权重,最后对于每个单词的分数我们做一个权重求和,就得到了Query和文档之间的分数。
- 基础相关性提供的打分并不能作为排序依据,原因是因为Query图片中的OCR文本残缺或者一定概率错误是经常发生的,非常相似的改编题目也是很常见,这些条件都给我们开发拍题搜索带来了新的挑战。一个典型的例子如下图,每个pair的上面一行代表Query中的文本,下面一行代表召回的结果与之比较。
从下图可以体会到,对召回的题目进行排序选择匹配最好的一个问题不能简单通过字符串比较而是需要使用多种文本相似的打分函数作为特征用来作为LTR模型的输入。这些文本相似度函数的选择依据是需要均衡OCR识别错误的鲁棒性和对相似题目文本差异的敏感性。
基础检索系统召回的列表再经过Learning to Rank(f(q,d))排序和Learning for Match比较选出最佳匹配
最后选择了LTR模型为LambdaRank
-
4、构建评测系统 ,评估标准
- 构建评测系统 n次用户检索图片在作业帮等竞品,做评测,评估命中率与优质率。
-
5、构建业务层
- iOS、 安卓、小程序、openapi(夸克app)、opensdk (学而思网校)
四、第四步:优化与创新
-
构建优质答题系统
-
自动解题
-
题库质量优化
五、第五步:推广
抖音、头条、广告牌、电梯社区广告
六、总结
题拍拍整个拍照系统包含了超过2.6亿个文档(题目),涵盖了K12不同的科目题型也包含中文、英文、公式、数理化符号和图形, 命中率 达到96% (有题)。
两年时间,1年时间在构建题库、打磨算法,1年时间专注app的开发,从零用户到百万日活千万用户。我总结了如何快速打造爆款app步骤。
第一步: 确定方向(最重要)
第二步: 调研竞品,确定核心指标
第三步:核心指标达到行业top
第四步:优化、创新、推广
第五步:变现