2021年中国企业发展核心影响因素透视图

149 阅读3分钟

2021企业年报因果抽取.jpg 大概是四千多个节点,基于networkx生成的图。 自己找了几个人标注了一万多条的因果数据集。过程比较坎坷,这个工作我认为充满了意义。

{
    "text":"  (b)被媒体曝光负面新闻,且未能及 重要缺陷:单独缺陷或连同其他缺陷,导致不能及时 时消除影响,导致公司生产经营、企业 防止或发现并纠正财务报告中虽不 构成重大错报但 形象受损;  定性标准  仍引起管理层重视的错报。",
    "spo_list":[
        [
            "被媒体曝光负面新闻",
            "Influence",
            "不能及时 时消除影响"
        ],
        [
            "单独缺陷或连同其他缺陷",
            "Influence",
            "不能及时 时消除影响"
        ],
        [
            "未能及 重要缺陷",
            "Influence",
            "不能及时 时消除影响"
        ],
        [
            "不能及时 时消除影响",
            "Influence",
            "公司生产经营、企业 防止或发现并纠正财务报告中虽不 构成重大错报但 形象受损"
        ]
    ]
}

这些数据能训练一个基于gplinker的关系抽取模型,训练好这个模型后可以可视化年报数据。

基于图结构数据的pagerank关键节点排序

我们用networkx的pagerank来找一下整个数据集中比较关键的节点都有哪些。

import networkx as nx
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['FZSongYi-Z13S'] # 指定默认字体
from matplotlib import font_manager
  
# fname中选择一个你本机查询出来的字体 若没有中文字体则需要你本人手动安装
  
font = font_manager.FontProperties(fname="./simhei.ttf")
plt.figure(figsize=(30, 30))
G = nx.DiGraph()
all_nodes = []
all_relation = []
for one_data in all_data:
    for spo_one in one_data["spo_list"]:
        all_nodes.append(spo_one[0])
        all_nodes.append(spo_one[2])
        all_relation.append((spo_one[0],spo_one[2]))
all_set_nodes = list(set(all_nodes))
# G.add_nodes_from(all_set_nodes[:200])   # 添加节点 1 2 3

G.add_edges_from(all_relation)   # 添加多条边

pagerank_list = nx.pagerank(G, alpha=1)

结果

[('增加公司的经 营风险', 0.0008193168035591066),
 ('对公司的经营业绩产生不利影响', 0.0006381804912339937),
 ('提高生产效率', 0.0005384591503453989),
 ('公司的盈利能力', 0.0005313509600556322),
 ('利润', 0.00048362122163693114),
 ('差异', 0.0004774461601192325),
 ('降低生产成本', 0.00047232321238635435),
 ('减记递延所得税资产的账面价值', 0.00046200771387798213),
 ('业绩同比较大增长', 0.0004510839561722452),
 ('债务人信用风险的预期变动', 0.000435240512594491),
 ('对公司经营业绩产生不利影响', 0.0004097914179013136),
 ('研发费用变动', 0.0003849546887569627),
 ('公司的经营业绩', 0.000383149922796155),
 ('降低借款人履行其合同现金流量义务的能力', 0.0003721125179034595),
 ('合同为租赁或者包含租赁', 0.0003635510706677907),
 ('促进公司的新能源汽车业务持续发展', 0.0003585403579942153),
 ('提升企业整体盈利水平', 0.0003563827215126638),
 ('促进企业与员工和谐共赢、 共同发展', 0.00035566081512834063),
 ('影响公司盈利能力', 0.00035566081512834063),
 ('医药行业在国民 经济的比重日益扩大', 0.00035566081512834063),
 ('促进公司经营业绩的提升', 0.00035566081512834063),
 ('筹资活动产生的现金流量净额变动', 0.0003335860053429498),
 ('提高客户的满意度和忠诚度', 0.00033105933299781886),
 ('现金及现金等价物净增加额同比减少', 0.00033105933299781886),
 ('金融工具被视为具有较低的信用风险', 0.000318513234382489),
 ('增强产品竞争力', 0.0003130881452109067),
 ('提高企业市场竞争力', 0.0003097532404467173),
 ('机器人高精密减速机业务获得高速发展', 0.00030790166363594336),
 ('预计负债', 0.00030790166363594336),
 ('投资者在证券交易中遭受损失', 0.00030790166363594336),
 ('行业高质量发展水平持续提升', 0.00030790166363594336),
 ('夯实公司的行业领先地位', 0.00030790166363594336),
 ('提升经济效', 0.00030790166363594336),
 ('增强公司竞争力', 0.00030790166363594336),
 ('良好的基本面 没有发生改变', 0.00030790166363594336),
 ('全面提升公司综合竞争力', 0.00030790166363594336),
 ('持续提升人均效率', 0.00030790166363594336),
 ('增强员工归属感、获得感、成就感', 0.00030790166363594336),
 ('公 司的技术和产品将逐渐丧失市场竞争力', 0.00030790166363594336),
 ('经济结构转型仍任重而道远', 0.00030790166363594336),
 ('培养和发掘优 秀人才', 0.00030790166363594336),
 ('医药健康与保健市场保持着旺盛的增长', 0.00030790166363594336),
 ('毛利率下降', 0.0003071797572516202),
 ('市场竞争加剧', 0.0003071797572516202),
 ('行业整体提质增效', 0.0003071797572516202),
 ('降低产品单耗水平', 0.0003071797572516202),
 ('成为公司新的利润增长点', 0.0003068188040594587),
 ('对盈利能 力带来一定负面影响', 0.00030669309788112624),
 ('公司产品的市场增长不及预期', 0.0003064578508672971),
 ('行业开始去产能', 0.000305735944482974)]

这是一个宝藏项目 期待你的问题 我们共同进步