FinancialDatasets
SmoothNLP 金融文本数据集(公开) | Public Financial Datasets for NLP Researches
数据一览
由于github存储有限, 如需全量数据集, 请联系: contact@smoothnlp.com
| 数据名称 | 数据字段 | 样本量 | 总量 | 下载链接 |
|---|---|---|---|---|
| 企业工商信息 | 名称,公司名称,公司介绍,工商,地址,工商注册id,成立时间,法人代表,注册资金,统一信用代码,网址 |
1万 | 50万 - (上市及中小型企业) | 下载 |
| 金融讯息新闻 | title-新闻标题,content-新闻内容,pub_ts-发稿日期 |
2万 | 210万 | 下载 |
| 专栏资讯 | title-新闻标题,content-新闻内容,pub_ts-发稿日期 |
1万 | 58万 | 下载 |
推荐研究方向
- Embedding (Word2Vec, Bert, 等)
- 实体识别
- 无监督聚类: 基于企业描述信息, 进行竞品聚类
- 企业行业分类