新增企业名录解决方案

1,096 阅读8分钟

企业数据目前应用比较广泛,市面上围绕企业数据商业化产品也比较多,像某眼查、某信宝、某查查、某查猫、爱某查等产品,都是围绕企业数据开发的商业数据聚合查询产品。

目前大部分企业类数据产品的商业模式基本大同小异,都是开发统一查询工具,收取会员费,一年VIP几百上千不等,这种查询会限定VIP每日查询次数,针对个人和企业小批量查询用户可以使用;另一种就是通过平台提供的API接口查询,按调用次数付费。

某商业查询平台收费模式

VIP模式:

image.png

付费接口模式:

image.png

企业数据产品的两个核心技术点

分析目前市面上的商业化企业数据查询产品,需要解决的核心技术点也就两个,全量企业名录和有名录如何基于名录更新扩展像司法、税务、知识产权等其他维度数据,数据维度涵盖越广相对就会有越多用户愿意使用,所以拿到名录是第一步,基于名录扩展其他维度数据也很关键。基于个人以往做这部分数据的经验,简单分享一下解决这两个问题的思路。

1.企业名录

新增企业名录

实际上解决了新增企业名录,历史存量企业名录也就可以解决;新注册的企业最先公开披露肯定是在国家公示系统:www.gsxt.gov.cn/index.html, 另一个就是全国组织机构统一社会信用代码公示查询平台:www.cods.org.cn/。 所以要想第一时间获取到新增名录也只能从这两个平台入手,正常的思路就是用关键字查询,关键字就是名称和统一社会信用代码;名称支持模糊搜索,解决全量新增采集不太现实,所以只能利用统一社会信用代码来获取。

统一社会信用代码组成:

image.png 有心人研究一下统一社会信用代码编制规则文档,附链接:www.cods.org.cn/cods/conten… 本人也是研究了这个文档解决的新增名录获取,程序已稳定运行一年多,目前可以做到新增企业T+1更新入库。

观察下图红色框中的规律(为实际采集数据截图):org_code码是连续自增的,91是代表企业,92个体工商户,93农业合作社 91后面的连续6位为地区码,最后两位为校验码.清楚这个码的组成,就简单了,自己构造数据直接请求呗

image.png 截图数据是本人采用本方法日常获取的新增企业名录截图数据,为真实数据,由于实际公司项目再用,细节不好公开。总结一句话:获取全国所有地区的city_id(国家有公开),确定org_code在每个地区分段区间,这个是可以依靠程序去确定的,不一定要人来做(这个就看大家写代码算区间的能力了)。程序记录上次每个地区最大机构码位置,每日程序从上次位置自增机构码拼接出来统一社会信用代码,去工商或者代码查询平台直接查询数据。工商数据相对代码查询平台更新及时一点。

历史存量名录

新增名录解决了,其实是可以按照新增名录获取的方法倒叙采集历史数据的,但是有个问题是,历史上有的地区地区码做过变更,还有一部分企业可能暂时还没有做三证合一或者五证合一,所以没有统一社会信用代码怎吗处理,仔细研究一下工商数据看看还有啥码能用的(点到为止);最核心的是目前存量社会主体名单在2亿+以上(含注销和个体户,在营企业4000多万,在营个体8000多万,注销主体8000多万),采集工商和代码中心都有封IP的问题,这吗大量的数据采集需要的代理IP和服务器成本就比较高。另一个思路就是存量名单通过采购,比如采购20年以前的全量数据,采购时可以考虑通过小的数据公司来获取这部分数据,价格相对便宜。另一个就是找某些平台的漏洞,拿回历史全量数据,完了新增名录通过工商每日增量获取即可。强调一句,代码区间的计算前提是你先需要有一批企业名单(带社会信用代码),这部分企业数据是帮助你计算位置用的,对数据是有要求的,比如全国指定某一天的企业数据(这个好获取吧),一条数据没有的情况下,就是考验大家如何获取第一批名单了,很多地方都能采集到这部分数据,至少是不需要花钱就能弄到这部分数据的(代理IP费用需要花),大家各显神通就成。位置确定了之后,向前就是历史的,向后就是新增的。

2.数据更新

解决了企业名录问题,其他维度数据也几乎都是基于企业名称搜索就可以查询到数据,这部分数据就是简单的利用爬虫技术,做补充采集即可。目前各个平台反爬比较不好处理的也就极验验证码和瑞数js反爬,这两反爬算是目前用的比较多的反爬,也是目前效果比较好的反爬方式,增加了破解难度,但是已经有很多破解方案和商业接口供大家使用。极验破解思路都很清清晰,有训练样本结合深度学习就可以训练一个识别模型,JS加密算法已经被大家解密的差不多了,所以说有样本人人都能破解极验(开个玩笑)。瑞数也已经有人逆向出来他的算法了,所以名录解决了,其实就可以做一个和市面上类似的企业数据查询平台(有数据那就剩怎吗用怎吗变现的问题)。

总结

18年开始接触企业数据,公司第一批企业名录也是采购回来的,一直困扰我的也就是新增名录获取问题,尝试过通过很多第三方平台获取新注册名录数据,发现数据缺失很严重,中途有一年多不做企业数据了,20年开始又因项目需要,开始又弄企业数据,同样的困扰又出现了,新增怎吗解决?于是各种百度,也是没找到好的解决方案,就思考为何商业化的平台他们能拿到,而且很及时,最后下定决心研究一番,其实也就一个晚上,当时的思路就是统一社会信用代码遍历,阅读了统一社会信用代码编制规则,完了找了第三方平台获取了一个地区一天的企业号码,观察了编码规则,发现就是编码自增,ok,那其实思路就很明确,确定好全国每个区目前的代码位置,基于确定的代码位置,每日自增搜索即可,搜索时中途会遇到暂时查不到记录如何处理、如何缩小代码搜索范围,就是如何生成的代码一定就是一个新的代码(这个大家有数据了观察规律就能清楚如何处理,不同省份可能也会有不一样的地方,需要实际观察代码来确定),这些都是细节问题,其实只要整体思路对了,那就成功一半了。第二天写了代码测试了一番,发现数据采集回来了,剩下的就是确定所有全国每个地区位置的事情了,一定不要人工去确定,这个事情要依靠程序去做。

企业数据变现

中间有一段时间专门做过一段时间数据变现,对于企业数据,谈谈自己一些想法,拿到企业全量数据,做一个简单的企业数据网站,数据可以按照省份、按照工商行业分类打包,每个数据包在网站上展示价格,直接销售这部分企业基础数据;每日新增企业数据也可以按照不同时间维度来划分成小的数据包进行销售,有一些公司的需求就是只要新增名录;同样其他维度数据也可以在平台上进行打包销售,比如裁判文书、软著、专利等数据,都可以按照一定标准做分类打包销售,这部分数据的商业价值还是很高,而且市场需求也挺大,个人或者一个小团体维护这样一套系统,流量起来之后完全可以实现自给自足。

后期会不定期更新司法、专利、软著、招聘、投融资、金融等数据整合方面的文章。