图表征相似性,在推荐系统中是一个经常用到的召回通道。本文实现的是基于事件因果关系同构图数据实现。通过graph embedding系列工作来实现事件图表征的余弦距离相似度实现逻辑。由gensim库实现的余弦相似度实现。
autodl大规模活动来啦 大家赶快来autodl里实现这个工作吧。
AutoDL-品质GPU租用平台-租GPU就上AutoDL www.autodl.com/register?co…
点击链接 注册autodl账号相关工作会分享到autodl平台中。autodl首发。
大规模的同构图是一个很适合用来实现graph embedding任务的数据集。结合上一阶段的工作,我们构建了一个超过十万个关系的同构图企业事件因果数据集。这次我们来通过一些基础的方式来将每一个图上的节点映射到一个向量空间中。
这里我们用到的是一个graph embedding的开源工作来在我们的企业事件因果图谱上训练图表征模型。
import networkx as nx
import json
G = nx.DiGraph()
# plt.figure(figsize=(60, 60))
all_nodes = []
all_relation = []
one_data = json.load(open("../datasets/pred_sentence_2019年.json"))
for spo_one in one_data["spo_list"]:
# all_relation.append((spo_one[0],spo_one[2]))
G.add_edge(spo_one[0].replace(" ",""),spo_one[2].replace(" ",""), label="导致")
graph embedding代码基于gensim实现的图表征模型有三个deepwalk、node2vec、stuc2vec。
deepwalk
model = DeepWalk(G, walk_length=10, num_walks=80, workers=1)
model.train(window_size=5, iter=3)
推理相似节点工作
for spo_one in one_data["spo_list"][:20]:
print("输入事件", spo_one[0])
print("事件相似度排序", model.w2v_model.wv.similar_by_word(spo_one[0]))
推理结果
输入事件 客户采购方式的变化
事件相似度排序 [('市场不断加剧的价格竞争', 0.9973242878913879), ('消费升级驱动', 0.8410440683364868), ('终端市场的竞争加剧', 0.8387608528137207), ('人员不足', 0.8284267783164978), ('人才储备未能匹配公司的高速发展', 0.8276222348213196), ('技术创新和应用', 0.8160853981971741), ('漏记外部租费', 0.7682825922966003), ('绿色轮胎', 0.7680158615112305), ('追加业绩补偿', 0.7654894590377808), ('子午化', 0.763705849647522)]
输入事件 环保督察
事件相似度排序 [('第二轮环保督察的启动', 0.7422260642051697), ('《城镇污水处理提质增效三年行动方案(2019-2021)》等政策的出台', 0.7356640696525574), ('进入转型升级的新阶段', 0.6871125102043152), ('环保行业由高速发展转入高质量发展', 0.6371679902076721), ('高耗能、高污染、低效益的中小纸企被关停', 0.6055229306221008), ('行业供给端明显收缩', 0.5962361693382263), ('利用规模优势', 0.5670992136001587), ('产品加工工艺逐步向少人化的智能化发展', 0.566989004611969), ('人工成本不断上涨', 0.565779447555542), ('劳动力就业意愿的改变', 0.5631844997406006)]
输入事件 本公司催收到期款项相关执行活动
事件相似度排序 [('执行活动', 0.9992439150810242), ('本集团催收到期款项相关执行活动', 0.9992010593414307), ('公司将续约投入研发资源确保射频微型连接器及配套解决方案在市场的领先地位', 0.9378350377082825), ('破局再生', 0.9253036379814148), ('营业收入是圣龙股份公司关键业绩指标之一', 0.90658038854599), ('龙血通络胶囊获得新标准的批复', 0.8637887239456177), ('全年新签良性服务订单创历史新高', 0.8597068190574646), ('综合应急预案演练', 0.8496002554893494), ('燃气表行业的发展', 0.8306125998497009), ('一致行动关系解除', 0.8270614743232727)]
输入事件 实施新金融工具会计准则
事件相似度排序 [('本期坏账损失和预计担保损失计提增加', 0.7236636877059937), ('将原计入资产减值损失的各项金融工具减值准备列入信用减值损失', 0.6202078461647034), ('工程项目收入增加', 0.5666966438293457), ('西安地理信息数据生产基地建设项目的土地出让价格较前期论证与决策的价格有较大变化', 0.5594624280929565), ('未到结算时点的应收账款增加', 0.5585870146751404), ('回款变慢', 0.5567271113395691), ('商超、电商销货款增加', 0.555770218372345), ('下属子公司赔偿款增加', 0.5544816851615906), ('四季度销售额增长', 0.554463803768158), ('公司本年收入增加', 0.5527077913284302)]
输入事件 加快导入阿米巴
事件相似度排序 [('为喷射泵提供动力蒸汽', 0.9609167575836182), ('交易对方在窗口期内不接受要约', 0.9288659691810608), ('面板行业的技术不断发展更新', 0.919609010219574), ('保障公司阴极铜生产规模', 0.8679860830307007), ('后续业务将会进一步稳定开展', 0.8340771794319153), ('客户选择合作伙伴', 0.8281710743904114), ('大数据、AI等技术在图像识别、标记、编目中的运用', 0.8269164562225342), ('业务将会进一步稳定开展', 0.8267408609390259), ('气门企业与下游发动机主机厂的协作不断加深', 0.8178354501724243), ('提高产品的标准化模块比例', 0.811606764793396)]
输入事件 制造业整体素质大幅提升
事件相似度排序 [('全员劳动生产率明显提高', 0.839230477809906), ('创新能力显著增强', 0.8383985757827759), ('较难直接获得包含商誉的资产或资产组的市场公允价值', 0.713125467300415), ('境外销售、采购、服务、投资等活动逐步增加', 0.7067074179649353), ('无法直接获得包含商誉的资产组或资产组组合的公允价值减处置费用的净额', 0.7055902481079102), ('境外法律政策的变化', 0.7032409906387329), ('全球经济回暖', 0.6960047483444214), ('健康养生意识的增强', 0.6926930546760559), ('较难直接获得包含商誉的资产组或资产组的公允市场价值', 0.6791456937789917), ('下游厂商数量有限', 0.6776798367500305)]
输入事件 提升行业进入壁垒
事件相似度排序 [('享受行业新盈利周期的优厚利润', 0.9338679313659668), ('行业景气度将不断提升', 0.8810099959373474), ('先进的生产设备以及生产的规模化优势', 0.8685997724533081), ('生产的规模化优势', 0.8660940527915955), ('公司应收账款比年初增应收账款121,175,949.735.16%91,070,505.474.05%1.11%加33.06%', 0.8531545996665955), ('技术研发、市场等人员的需求都将在现有基础上持续提升', 0.7755328416824341), ('渠道合作伙伴', 0.7313215136528015), ('为社会、为股民创造更大的财富', 0.7290550470352173), ('国家对食品安全的高度重视和政策引导', 0.726654589176178), ('智能控制器的市场需求不断上升', 0.7263872623443604)]
输入事件 公司业务规模持续扩大
事件相似度排序 [('管理能力面临更高的要求', 0.8280138969421387), ('公司组织架构日趋复杂', 0.801480233669281), ('经营实力不断增强', 0.7309455871582031), ('未实现销售的产品不可退还给供应商', 0.6721007227897644), ('公司股票若连续3个交易日收盘价超过每股净资产', 0.6536925435066223), ('配合品牌', 0.6355997323989868), ('公司的售后服务优势明显', 0.6323159337043762), ('满足了不同客户的需求', 0.6305150389671326), ('研发低成本坯料专线成功实现量产', 0.6296306848526001), ('公司目前形成了集“种、研、产、供、销”为一体的产业链布局', 0.6292423605918884)]
输入事件 公平客观的评价体系
事件相似度排序 [('培养机制人才', 0.9264355897903442), ('立体化的激励机制', 0.9257485270500183), ('高质量的人力资源', 0.9231734275817871), ('集团化管理水平', 0.9218196272850037), ('市场竞争风险创新', 0.9209331274032593), ('构建公平客观的评价体系', 0.9106717109680176), ('社会公益事业', 0.9010674357414246), ('我国人工成本呈较快增长趋势', 0.8864356279373169), ('给企业带来较大的经营压力', 0.8754600286483765), ('基业常青', 0.8517396450042725)]
输入事件 产能逐步开出
事件相似度排序 [('其价格将逐渐降低', 0.908732533454895), ('UVCLED技术的提升', 0.8233829736709595), ('扩大饮片煎药业务', 0.7936322689056396), ('优化经销商队伍', 0.7879278659820557), ('净化/消毒市场有望在2022年后超过固化市场成为领军者', 0.7386456727981567), ('国家和地方政府部门高度重视环保并加大环保监管', 0.7233623266220093), ('净值下降', 0.707694947719574), ('控制经营风险', 0.6908242702484131), ('计提折旧', 0.6721271276473999), ('不能及时满足下游客户需求', 0.6678183674812317)]
输入事件 由高速增长阶段转向高质量发展阶段
事件相似度排序 [('我国经济迈入新时代', 0.8631263971328735), ('行业政策的变化', 0.78822922706604), ('我国经济发展已经进入新时代,由高速增长阶段转向高质量发展阶段', 0.7861061692237854), ('我国经济发展已经进入新时代', 0.7860089540481567), ('房地产调控政策趋严', 0.75281822681427), ('固定资产投资增速下行', 0.7422181963920593), ('线下门店营业受阻', 0.7396495342254639), ('企业复工复产延后', 0.735675573348999), ('存货跌价准备的计提涉及管理层重大判断', 0.7260383367538452), ('严控海外业务逾期风险', 0.6975085735321045)]
输入事件 技术人员的流失
事件相似度排序 [('悠久的从业历史和技术积累', 0.9990958571434021), ('关键技术大多数已转变成了公司的技术专利', 0.9990737438201904), ('产品质量管控优势', 0.9989795088768005), ('本土化优势', 0.9989793300628662), ('质量技术优势', 0.9989389181137085), ('规模及完整的产业链竞争优势', 0.9989255666732788), ('客户资源优势', 0.9988915324211121), ('公司的研发水平', 0.9988768696784973), ('创新优势', 0.9988678097724915), ('核心客户优势', 0.9988546371459961)]
输入事件 规模化生产
事件相似度排序 [('做好MES系统上线运营', 0.6224707365036011), ('打通前中后台连接', 0.6176041960716248), ('工业4.0智能化', 0.5836116671562195), ('“大批量”半自动化、自动化快速生产模式', 0.5829476118087769), ('技术进步带来的生产变革', 0.5825039148330688), ('降低单位产品成本', 0.567969799041748), ('MES系统上线运营', 0.5676689743995667), ('严格各项管理', 0.5634177327156067), ('加强企业经营管理和内部控制', 0.5622459650039673), ('灵活安排人员', 0.5577757358551025)]
输入事件 整合直营公司
事件相似度排序 [('充分调动员工工作的积极性和创造性', 0.9674583077430725), ('基础管理稳中有升', 0.9197766780853271), ('商品采购量有所减少', 0.8989313244819641), ('对具体经济业务重新判断划分', 0.864853024482727), ('整个行业向更高层次发展', 0.853833019733429), ('品牌力、品质力、营销力等显著提升', 0.8522377014160156), ('产品设计与产品工业化以及总部和基地的数据管理分离', 0.8516301512718201), ('加大S产品市场导入', 0.8512312173843384), ('推动整个行业向更高层次发展', 0.8496418595314026), ('被投资企业嘉善善商大厦管理有限公司经营环境和经营情况、财务状况未发生重大变化', 0.8477960228919983)]
输入事件 公司无法保持持续技术创新的能力
事件相似度排序 [('未能把握行业技术发展趋势', 0.9957637786865234), ('核心技术研发方向出现偏差', 0.9956815242767334), ('把握市场发展机遇', 0.929145097732544), ('全球经济波动较大或长期处于低谷', 0.9107674360275269), ('电动工具、智能家居等终端产品智能化水平持续上升', 0.910038948059082), ('国内国际两个市场双轮驱动', 0.908578634262085), ('海内海外相关资源联动互补', 0.9046146869659424), ('公司的核心技术优势将无法维持', 0.9042403697967529), ('行业地位将受到影响', 0.9021907448768616), ('公司不能通过提高产品价格等方式转嫁成本', 0.897199809551239)]
输入事件 生产工艺创新优化工作
事件相似度排序 [('热质传递速率快', 0.942765474319458), ('改善生产流程及制造工艺', 0.9384695887565613), ('做好海外项目后续生产经营工作', 0.9377831816673279), ('公司推出的一线成型电脑横机', 0.9371160268783569), ('制定科学合理的薪酬体系', 0.9356909990310669), ('研发和引进自动化设备', 0.9355505108833313), ('促进管理模式科学化', 0.9352312684059143), ('加大智能化、数字化生产装备投入', 0.9349076151847839), ('提高工人的技能熟练度与技能水平', 0.9345666766166687), ('推进生产工艺改善', 0.9338564276695251)]
输入事件 国内外市场需求低迷
事件相似度排序 [('终端客户对中国生产铝电解电容器的采购减少', 0.9919864535331726), ('南方暴雨洪涝', 0.9019246101379395), ('H7N9流感', 0.9006989002227783), ('行业发展未达到预期', 0.8446138501167297), ('市场竞争态势变化', 0.841747522354126), ('公司加大市场开拓', 0.8228635787963867), ('公司执行《修订通知》', 0.8193300366401672), ('公司会计政策变响', 0.8178115487098694), ('行业盈利状况好转', 0.817722737789154), ('国内烧碱产能增速趋缓', 0.8156237006187439)]
输入事件 加大百元以上产品销量
事件相似度排序 [('休闲类食品的研发、生产和销售', 0.9243448376655579), ('降低并发症', 0.8855746388435364), ('我们将应收账款的坏账息、以往的交易历史和回款情况、前瞻性考准备作为关键审计事项', 0.8555285930633545), ('相关诉讼尚处于初裁阶段', 0.8375689387321472), ('有效提升汉德车桥环境污染治理水平', 0.8027288317680359), ('我国实行浮动汇率制度', 0.8019937872886658), ('公司保持核心技术人员团队稳定', 0.8017922043800354), ('本土材料的需求量也会增加', 0.7984399199485779), ('国家环保政策收紧', 0.7955968976020813), ('推动环保装备行业的发展和升级', 0.7766039967536926)]
输入事件 营业收入是金明精机公司关键业绩指标之一
事件相似度排序 [('乳业公司和经销商抗风险能力差', 0.964424192905426), ('注重库存备货管理', 0.9145337343215942), ('公司基于谨慎性原则', 0.8482500314712524), ('下行压力有所加大', 0.8435887694358826), ('带动食品业务在国内更大的市场范围发展', 0.8304644227027893), ('食品业务在国内更大的市场范围发展', 0.830147922039032), ('增加公司的综合实力', 0.8198594450950623), ('部分已超过正常使用寿命、可靠性缺乏保障的机动车检测系统仍在使用', 0.8175009489059448), ('聚焦重点产品', 0.794776976108551), ('为公司后续持续、快速的发展', 0.7945610880851746)]
输入事件 大功率激光智能设备市场竞争愈加激烈
事件相似度排序 [('拥抱“5G+工业互联网”', 0.9974505305290222), ('加快推进下属企业的股权结构改革', 0.9392256736755371), ('推进下属企业的股权结构改革', 0.9367513060569763), ('产业链各环节为保持合理利润率', 0.8922788500785828), ('平价上网步伐加速', 0.8882057666778564), ('公司不能有效应对市场竞争、行业发展、经营规模扩张等内外环境变化', 0.8547608852386475), ('达到预定生产经营目的', 0.853165328502655), ('生产性生物资产进入正常生产期', 0.852932870388031), ('经营规模扩张等内外环境变化', 0.8522180914878845), ('提高生产效率和产品效果', 0.8022451996803284)]
node2vec
from ge import Node2Vec
model = Node2Vec(G, walk_length=10, num_walks=80,
p=0.25, q=4, workers=1, use_rejection_sampling=0)
model.train(window_size = 5, iter = 3)
因为是基于gensim实现的,所以这里我们可以调用model.w2v_model.wv.similar_by_word方法来实现节点相似度搜索的工作。
for spo_one in one_data["spo_list"][:20]:
print("输入事件", spo_one[0])
print("事件相似度排序", model.w2v_model.wv.similar_by_word(spo_one[0]))
实验结果
输入事件 客户采购方式的变化
事件相似度排序 [('市场不断加剧的价格竞争', 0.9873031377792358), ('持续的高研发投入', 0.9647659063339233), ('平价上网实现', 0.9647079110145569), ('有色金属行业从原料供给到下游消费需求均存在经营压力', 0.9646428227424622), ('确认以前会计期间未确认的递延所得税资产', 0.9646344184875488), ('存在募集资金投资项目实施不力', 0.964460015296936), ('建设家庭医生制度', 0.9644106030464172), ('为促进世界经济增长', 0.9642500281333923), ('公司将面临税负加重的风险', 0.9636573791503906), ('经济发展未达到预期程度', 0.9635816812515259)]
输入事件 环保督察
事件相似度排序 [('第二轮环保督察的启动', 0.9284858703613281), ('《城镇污水处理提质增效三年行动方案(2019-2021)》等政策的出台', 0.927525520324707), ('进入转型升级的新阶段', 0.9077432155609131), ('为稀土产业健康发展', 0.9032811522483826), ('行业供给端明显收缩', 0.8970629572868347), ('环保行业', 0.8912422060966492), ('经济运行保持稳中向好态势', 0.890056312084198), ('高耗能、高污染、低效益的中小纸企被关停', 0.8895439505577087), ('推进哈空调国际化', 0.88739413022995), ('股权投于资采用公允价值计量', 0.8863033652305603)]
输入事件 本公司催收到期款项相关执行活动
事件相似度排序 [('执行活动', 0.9932873845100403), ('本集团催收到期款项相关执行活动', 0.9904468655586243), ('降低库存、提高资金使用效率', 0.8572274446487427), ('市场的高度集中', 0.8541050553321838), ('公司产品种类增多', 0.853800356388092), ('有效提升融合发展的层次和水平', 0.8517516851425171), ('建立稳定的客户资源', 0.8516802191734314), ('夯实核心竞争力', 0.8511004447937012), ('基于高精度位置信息衍生的智能化应用方向越来越多', 0.8494959473609924), ('罗红花女士与周口城投原签署的《表决权委托协议》仍然有效', 0.849278450012207)]
输入事件 实施新金融工具会计准则
事件相似度排序 [('本期坏账损失和预计担保损失计提增加', 0.9436674118041992), ('信用减值损失及费用率同比上升', 0.9322194457054138), ('本报告期收入增长不大', 0.9276821613311768), ('将原计入资产减值损失的各项金融工具减值准备列入信用减值损失', 0.9274582862854004), ('首次执行新金融工具准则', 0.9202224016189575), ('人均产值得以提升', 0.9196042418479919), ('营业收入同比增加', 0.9157276153564453), ('本期销售收入增加', 0.9112676978111267), ('相应成本增加', 0.9048206210136414), ('信用减值损失增加', 0.9039689302444458)]
输入事件 加快导入阿米巴
事件相似度排序 [('对公司未来的经营产生一定的影响', 0.9446712732315063), ('有效提高公司管理水平和运营效率', 0.9427973628044128), ('产业政策的扶持', 0.9425140619277954), ('筹资活动产生的现金流量净额同比上升', 0.9417029023170471), ('存货较年初下降', 0.9414744973182678), ('对玩具行业产生不利影响', 0.9412925243377686), ('促进社会稳定', 0.9409421682357788), ('公司的开发规划也无法确定', 0.9408180117607117), ('对目标项目实施“硬件+软件”的智慧化改造', 0.9406914114952087), ('有效日资金消除同业竞争', 0.9406780004501343)]
输入事件 制造业整体素质大幅提升
事件相似度排序 [('全员劳动生产率明显提高', 0.9678533673286438), ('创新能力显著增强', 0.9665487408638), ('扩大公司生产经营', 0.9463234543800354), ('对新员工的试用期管理', 0.9423201680183411), ('转增公司资本', 0.9396805167198181), ('弥补公司的亏损', 0.9380242824554443), ('光伏装备生产企业增加投资以扩大产能', 0.9363653659820557), ('为下游印制电路板制造行业带来新的技术进步', 0.9352082014083862), ('晶圆代工厂和封装测试厂的产能能否保障采购需求', 0.9351080060005188), ('提升疾病诊疗的舒适化水平', 0.9347509145736694)]
输入事件 提升行业进入壁垒
事件相似度排序 [('享受行业新盈利周期的优厚利润', 0.9930514693260193), ('生产的规模化优势', 0.9624512195587158), ('先进的生产设备以及生产的规模化优势', 0.9593327641487122), ('雄厚的资金实力', 0.8745234608650208), ('行业景气度将不断提升', 0.8514167666435242), ('董事会决策更科学、高效', 0.7585244178771973), ('与供应商建立了良好的合作关系', 0.7548443675041199), ('在当地形成良好的辐射效应', 0.7536116242408752), ('国内医药产业的集中度仍将进一步提升', 0.7505872249603271), ('伟星股份公司管理层(以下简称管理层)通过不恰当的收入确认以达到特定目标或预期的固有风险', 0.7504279017448425)]
输入事件 公司业务规模持续扩大
事件相似度排序 [('经营实力不断增强', 0.9362393021583557), ('管理能力面临更高的要求', 0.9353090524673462), ('给企业造成重要损失和不利影响', 0.9348819851875305), ('委员会相应终止了对被撤回的申诉事项的调查', 0.9322345852851868), ('为持续发展夯实基础', 0.9314571022987366), ('推动企业发展迈向更高质量', 0.9303805828094482), ('遭受重大行政监管处罚', 0.9297217726707458), ('确保向市场提供优质、安全、有效的产品', 0.9286426901817322), ('为本土供应链带来新的增长契机', 0.9283435940742493), ('从而发挥人才优势并强化核心竞争力', 0.9279640913009644)]
输入事件 公平客观的评价体系
事件相似度排序 [('给企业带来较大的经营压力', 0.996154248714447), ('基业常青', 0.9957066178321838), ('市场竞争风险创新', 0.9954739809036255), ('促进公司能够平稳健康发展', 0.9954010248184204), ('促进公司平稳、持续、健康的发展', 0.995384156703949), ('制度', 0.9952600598335266), ('我国人工成本呈较快增长趋势', 0.9951760768890381), ('集团化管理水平', 0.9951505661010742), ('立体化的激励机制', 0.9951347708702087), ('高质量的人力资源', 0.9947665333747864)]
输入事件 产能逐步开出
事件相似度排序 [('UVCLED技术的提升', 0.8777744174003601), ('国内外市场的扩大', 0.8506038188934326), ('项目毛利率保持在较高水平', 0.842820942401886), ('提升公司治理能力和水平', 0.8425374627113342), ('隔膜涂覆工艺亦得到国际客户的初步认可', 0.8398041129112244), ('公司现有的管理架构、管理人员素质、内控制度等无法适应新的行业变化', 0.8360173106193542), ('畅通的投资者沟通渠道与方式', 0.8354151844978333), ('公司股东大会的召集、召开和议事程序合法', 0.8335534930229187), ('承诺年度期限届满', 0.8307383060455322), ('地方政府大力支持“两机”专项实施', 0.8306758999824524)]
输入事件 由高速增长阶段转向高质量发展阶段
事件相似度排序 [('风险利益实现转移', 0.9383796453475952), ('全球体外诊断行业从实验生物学时期过渡到了分子生物学时期', 0.9381198883056641), ('为公司保持与现有大客户保持长期稳定的合作关系并开发新的大客户提供有力保障', 0.9370819330215454), ('劳务外包支付的报酬总额占薪酬总支出比例约6.48%,较上年度有较大增长', 0.9369946718215942), ('为公司的稳定发展', 0.936205267906189), ('提高党建工作科学化水平', 0.9361371397972107), ('公司应收账款不能得到有效的管理', 0.936083972454071), ('进一步深化和拓展与其他企业的合作关系', 0.9359036087989807), ('公司在确认应享有被投资单位净损益的份额', 0.935783326625824), ('毛利率及业绩有较大幅度下降', 0.9356689453125)]
输入事件 技术人员的流失
事件相似度排序 [('定制化服务', 0.9990806579589844), ('公司具有“七大”优势', 0.9990267157554626), ('产品质量管控优势', 0.9989499449729919), ('关键技术大多数已转变成了公司的技术专利', 0.9988357424736023), ('销售渠道和品牌优势', 0.9988088607788086), ('本土化优势', 0.9987829327583313), ('创新优势', 0.9987361431121826), ('人才优势', 0.9987125992774963), ('质量技术优势', 0.9986811280250549), ('悠久的从业历史和技术积累', 0.9986370801925659)]
输入事件 规模化生产
事件相似度排序 [('实施技术改造', 0.9120020270347595), ('仿真技术', 0.9035981297492981), ('改进工艺流程', 0.8956316709518433), ('对已有产品的工艺优化改进', 0.894060492515564), ('做好MES系统上线运营', 0.8920506238937378), ('扁平化组织架构', 0.8907945156097412), ('应用先进技术和工艺', 0.8887375593185425), ('推进产品智能化创新研究', 0.8882739543914795), ('湿法磷酸萃取净化技术', 0.8882121443748474), ('配方优化', 0.8879106044769287)]
输入事件 整合直营公司
事件相似度排序 [('本人将不减持所持有的发行人股份', 0.9420257806777954), ('国内市场占有率将会进一步提升', 0.9359107613563538), ('相关应收票据不会因银行违约而产生重大损失', 0.9317638278007507), ('BOPA薄膜的同步双向拉伸技术尚不普及', 0.9315311908721924), ('进一步增强业务竞争力', 0.9313265681266785), ('对全球经济造成严重影响', 0.9306463003158569), ('一次性食品包装盒、一次性医疗耗材包装行业', 0.9302453398704529), ('各类补贴', 0.9299699664115906), ('为本土供应链带来新的增长契机', 0.9293224215507507), ('支付其他与投资活动有关的现金变动', 0.9291878938674927)]
输入事件 公司无法保持持续技术创新的能力
事件相似度排序 [('未能把握行业技术发展趋势', 0.9991405606269836), ('核心技术研发方向出现偏差', 0.9990043640136719), ('行业地位将受到影响', 0.9988139271736145), ('公司产品的销量', 0.998335063457489), ('公司的核心技术优势将无法维持', 0.9982749223709106), ('资金状况不佳', 0.9982587695121765), ('影响公司产品的需求', 0.9981958270072937), ('把握市场发展机遇', 0.9981638789176941), ('各个标的公司未来经营中不能较好地实现收益', 0.9980800747871399), ('产生大额汇兑损失', 0.9980602264404297)]
输入事件 生产工艺创新优化工作
事件相似度排序 [('节约设备和人力投入', 0.9972667694091797), ('公司研发的精密级进模具', 0.996715247631073), ('提高工人的技能熟练度与技能水平', 0.9967101812362671), ('加强自身研发能力', 0.9963370561599731), ('支持下游客户大幅提升线速度', 0.9963236451148987), ('热质传递速率快', 0.996212899684906), ('产能基本饱和', 0.9961890578269958), ('通过配套自动化设备', 0.996161699295044), ('全面导入“一模多腔”的模具工艺', 0.9961250424385071), ('简化工艺流程', 0.9960435032844543)]
输入事件 国内外市场需求低迷
事件相似度排序 [('终端客户对中国生产铝电解电容器的采购减少', 0.986792266368866), ('其产品在国内市场的销量很低', 0.9045382738113403), ('供需缺口', 0.8984785079956055), ('限制性股票于2019年7月16日流通上市', 0.8961895108222961), ('公司正在积极开拓海外市场', 0.8955501914024353), ('焦油库存量较上年同期减少', 0.8953172564506531), ('员工进一步掌握了相关知识和应急防范措施', 0.8948842883110046), ('为军用通信产业升级发展奠定了坚实基础', 0.8947070240974426), ('符合HDR、宽色域、三维声、高帧率、高色深要求的4K电视终端全面普及', 0.8931980729103088), ('为公司联盟营销模式深化、生产与国际接轨提供了有力保障', 0.8931146264076233)]
输入事件 加大百元以上产品销量
事件相似度排序 [('公司应当优先采取现金方式分配股利', 0.9432582855224609), ('经营效益进一步提升', 0.9426616430282593), ('让周边制造企业为本公司贴牌生产部分产品', 0.9425489902496338), ('利润进一步上升', 0.9414980411529541), ('对中简科技报告期经营成果', 0.9414442181587219), ('公司将致力于推动CRTSIII型板的应用至国内和国外高铁市场', 0.941107988357544), ('为公司生产的顺利进行提供了设备保障', 0.9407660365104675), ('烧碱产量', 0.9405088424682617), ('应付票据/应付账款较期初上升', 0.9403107166290283), ('挤压掉投资需求', 0.9398626089096069)]
输入事件 营业收入是金明精机公司关键业绩指标之一
事件相似度排序 [('宇环数控公司的营业收入', 0.9387969374656677), ('对销售商队伍进行优化', 0.9369331002235413), ('利得减少', 0.9357203245162964), ('公司存在长期股权投资进一步减值的风险', 0.9355767965316772), ('国内市场收入继续保持了较快增长', 0.9351893663406372), ('固定资产的成本', 0.9351545572280884), ('公司能够独立作出财务决策,并实施合规的内部审计', 0.9350882768630981), ('政府对中医药产业的大力支持', 0.9350400567054749), ('为集团提供了运营设施和商务基础', 0.934945285320282), ('医院终端销售持续稳定增长', 0.9348464608192444)]
输入事件 大功率激光智能设备市场竞争愈加激烈
事件相似度排序 [('拥抱“5G+工业互联网”', 0.9906004071235657), ('提升了该车型的市场竞争力', 0.8956395983695984), ('本人将及时提出合法、合理、有效的补救措施或替代性承诺', 0.8907391428947449), ('首次授予股票期权人数降为33人', 0.8905136585235596), ('促进生态文明建设已在全球范围内形成共识', 0.8895164728164673), ('物流中心的建设', 0.8894820213317871), ('投资期限的有机管理', 0.8890766501426697), ('让用户存储信息更安全', 0.8889790177345276), ('公司在2019年也获得了国家专精特新“小巨人”企业,以及烟台市重点研发计划项目等创新工作成果', 0.8888265490531921), ('本公司愿依法承担相应责任', 0.8887398838996887)]
stuc2vec
model = Struc2Vec(G, 10, 80, verbose=40, )
model.train()
embeddings = model.get_embeddings()
目前还没有跑出来结果,等跑出来了结果我也放到这里。
没有标签的任务是最难以定义精度的。存粹的从图上去寻找节点之间的表征相似度是一个很难去定义的问题。本文的数据集来源是企业年报事件因果关系抽取任务构建的事件因果关系同构图。
1、介绍一下自己,哪个机构,做什么工作。
我是一名算法工程师、目前在一家涉密做事。工作内容涉密。方向是围绕海量自然语言处理信息,挖掘信息中存在的潜在价值。
2、你研究方向的详细介绍,注意要让大家能听懂,前提是你得先了解这个群里都是些什么人。
目前的研究方向在通过离散的自然语言文本信息构建企业经营状态及管理措施的抽取与可视化。从2019年的企业年报中构建了5000条企业经营状态事件、5000条企业管理措施事件实体抽取数据集。10000条事件因果关系抽取数据集。通过统计学深度学习信息抽取命名实体识别模型和关系抽取模型构建了一个可以从同分布场景中抽取事件实体及事件关系的模型。
3、你自己认为有什么「意义」,你自己认为可以做什么「产品」。
当前项目对企业发展决策具有时序可分析的意义。对比常态量化特征分析,非结构化数据分析一直是企业公告事件分析的痛点,以2019年数据距离,通过统计学深度学习信息抽取方法抽取企业事件实体246706条、企业事件因果关系192579 条。
一、无法利用现有技术对齐进行有效的可视化(数据量大无法全量渲染),需要对全局信息进行一次排序
(1)引入了PageRank算法寻找整体因果关系图谱中的节点重要性排序。
(2)引入了频次对整体因果关系图谱进行排序支撑可视化
二、这个数据量可以构建一个基于关系表征实现的搜索引擎。通过图表征的搜索能力去进行节点相关性搜索的工作。
4、你的困惑。
这些任务的实际产品意义在哪里。技术角度出发驱动的内容设计。需要对标到实际的生产意义中才有价值。
这个部分 是基于全局的排序(1)引入了PageRank算法寻找整体因果关系图谱中的节点重要性排序。
(2)引入了频次对整体因果关系图谱进行排序支撑可视化
这个任务可以通过选择节点作为输入来进行个性化的结果返回。这个数据量可以构建一个基于关系表征实现的搜索引擎。通过图表征的搜索能力去进行节点相关性搜索的工作。