过去2年一直在公司用electron + react做一些需求奇奇怪怪的应用,在这两年里,也了解了一些electron能适用的特殊场景的边界。
在之前的工作中,也遇到过通过在内嵌网页注入脚本执行大量操作的需求, 最近突然想到用脚本的方式获取自媒体平台的数据,在网上一番搜索,发现这种方式比起爬虫调用API接口的方式似乎安全不少(物理意义上的安全),瞬间就觉得这个idea不错,撸起袖子说干就干。
工具简介
自媒体数据采集
是一款桌面工具。通过JS脚本模拟用户操作,一键获取自媒体平台的相关公开数据(你猜为什么只能拿公开数据,懂的都懂)。
自媒体数据采集
的具体表现形式如下,暂时还只是技术思维的产品,还需要通过产品思维将产品逻辑串起来:
自媒体数据采集
的数据存储以txt文件的形式存储(db和Excel还在开发中),具体数据展示如下:
【小红书】获取全部笔记
【BOSS直聘】获取查询岗位数据
【抖音短视频】获取视频数据
【知乎】获取全部提问数据
客户端显示的数据
工具的基本原理:
1、使用electron嵌入web端网页(webview和browserView使用方式略有不同),取消安全检查和沙箱隔离
2、加载web端网页时,注入脚本代码(每个平台兼容不一致,比如小红书不兼容ES6的代码,需要写更古老的JS的api)。
3、通过脚本代码模拟用户操作,获取你想采集的数据。通过进程通信传递给主进程,主进程调用nodejs代码存储至本地(也可以直接扔云端,如果资源够的话)
4、数据的使用(看场景)
写在最后
工具现在是初期的技术思维的产品,还未构建产品思维!
正在计划的内容
蓝图 | 完成情况 | 可能存在问题 | 备注 |
---|---|---|---|
换一套颜值高的UI皮肤 | 开发中 | UI设计困难 | 需要产品思维 |
针对不同平台可以自定义脚本 | 开发中 | ||
更多的系统配置 | 开发中 | 需要产品思需 | |
一键自动登录 | 开发中 | 验证码这块比较复杂 | 需要产品思维 |
做成高度可视化的数据采集 | 开发中 | 需要进行功能模块设计 | 需要产品思维 |