开源网络情报(Open source intelligence ),简称OSINT,是美国中央情报局(CIA)的一种情报搜集手段,从各种公开的信息资源中寻找和获取有价值的情报
采集来源
新闻
- 政府网站
- 中央:如 中央政府网,新华网,人民网,
- 84个国务院部门网站:www.gov.cn/home/2023-0…
- 34个省政府:www.gov.cn/home/2023-0…
- 各地市级政府网站
- 行业网站
- 能源行业,北极星,
- 机械行业:第一工程机械网
- 企事业单位网站
- 能源行业 五大四小,
- 机械行业 徐工,柳工,三一重工, 中联重科,卡特彼勒,日立,现代集团 新闻收集时,一般按频道收录,对感兴趣的频道收录。
政策
政策的边界:
- 政策文本类型除了通知、意见稿、办法和规划
- 法律法规:这是政府或国家各级权力机关颁布的正式文件,具有法律效力。
- 条例:通常由政府或立法机构制定,用于规范特定领域或行为的正式文件。
- 命令:具有强制效力的文件,由立法或行政部门发布,要求特定个人或实体执行或停止 执行某些行为。
- 指令、指示:宽泛的具有强制效力的文件,要求特定个人或实体执行某些行为。
- 公报、公告、通告:用于公布信息或通知公众的文件。
- 决议、决定:由政府或行政机关作出的正式决定。
- 报告、请示:上行文,用于向上级机关汇报情况或请求指示。
- 批复:下行文,上级机关对下级机关请示的回复。
- 议案:提交给立法机构审议的正式提案。
- 函:平行文,用于同级机关或不相隶属机关之间的联系
来源
- 政府网站,是信息的一手来源,具有权威性。各省地方政府网对政策没有统一的规范。政府网有政策文件库,汇集了各种政策文件,可以收集;有的在“政务公开”频道,在子频道收录。政府网站一般都把人事任免信息放在政务公开里,这不属于政策,应排除。
- 行业网站
会议
- 行业网站
招投标信息
数据处理
过滤
按频道收集的数据需要过滤出相关的,目前是给出相关的关键词,用词来过滤。可以分为白名单,黑白单。在白名单中通过,在黑名单中排除。
查重
多个来源的数据,会有重复,需要去重。去重可按标题,url等字段去,也可按simhash算法对正文进行去重。
分类
对收集的数据分类处理,发现对正文分效果不好。目前是对标题分,一是用关键放词,一个分类对应一组关键词。另一方法训练分类模型,如fasttext.
事件分析
事件分析是二级分类,一级先分出事件名,二级再分时间,地点,人物,言论。每种事件的二级子元素是不一样的。需要技术有正则表达式,分词,词性分析,专有名词抽取(人名,地名,企业事业单位名,书名,会议名),句式分析(主谓宾),段落分析。
页面展示
新闻按频道显示
如行业动态,市场信息,产品信息等
政策专题
如各年份中央,省级市级政府工作报告;中央,省级市级十四五规划。 按时间线:
- 政策在中央,省,市的执行情况,如中央先发十四五能源发展规划,各省在此基础上发本省的能源发展规划,然后是市县级的发能源发展规划。这种在政策正文都会有提,根椐...来制订本政策。
- 先出个意见稿,看下市场的反馈,再出个修订稿,最后成熟再出正式的政策文件。
统计
按年份,企业名,行业统计