参赛链接
SMP 2023 ChatGLM金融大模型挑战赛_算法大赛_赛题与数据_天池大赛tianchi.aliyun.com/competition/entrance/532126/information
1. 评测任务概述
本次比赛要求参赛选手以ChatGLM2-6B模型为中心制作一个问答系统,回答用户的金融相关的问题,不允许使用其他的大语言模型。参赛选手可以使用其他公开访问的外部数据来微调模型,也可以使用向量数据库等技术。
本次比赛评估模型能力的赛题按照涉及模型的能力和复杂程度大体分为初级、中级、高级三种类型,每种类型的题目拥有不同的分值:
初级:数据基本查询(40分)
参赛者需要利用提供的ChatGLM2-6B开源模型和上市公司年报原始数据,并以此为基础创建信息问答系统。系统需能够解决基本查询,如:某公司2021年的研发费用是多少?等问题。
中级:数据统计分析查询(30分)
在初级阶段的基础上,参赛者需要进行金融数据的统计分析和关联指标查询。系统需基于各类指标,提供问题和答案,如:某公司2021年研发费用增长率为多少?等问题。
高级:开放性问题(30分)
如:某公司2021年主要研发项目是否涉及国家创新领域,如新能源技术、人工智能等?
这里面很好的讲到了本次题目中的三类问题,按照分数记录,数据基本查询占比百分之四十,数据统计分析占比百分之三十,这个百分之三十我认为是最难的百分之三十。
首先我们观察一下此次比赛的数据集。
{"id": 0, "question": "能否根据2020年金宇生物技术股份有限公司的年报,给我简要介绍一下报告期内公司的社会责任工作情况?"}
{"id": 1, "question": "请根据江化微2019年的年报,简要介绍报告期内公司主要销售客户的客户集中度情况,并结合同行业情况进行分析。"}
{"id": 2, "question": "2019年四方科技电子信箱是什么?"}
{"id": 3, "question": "研发费用对公司的技术创新和竞争优势有何影响?"}
{"id": 4, "question": "康希诺生物股份公司在2020年的资产负债比率具体是多少,需要保留至小数点后两位?"}
{"id": 5, "question": "苏州科达在2020年的博士及以上人员数量是多少?"}
{"id": 6, "question": "河北金牛化工股份有限公司2020年法定代表人对比2019年是否相同?"}
{"id": 7, "question": "南京康尼机电股份有限公司2019年企业研发经费与利润比值是多少?保留2位小数。"}
{"id": 8, "question": "2021年商业城现金及现金等价物增长率是多少?保留2位小数。"}
{"id": 9, "question": "平潭发展在2021年的投资收益增长率保留到小数点后两位是多少?"}
{"id": 10, "question": "请问,光云科技2019年的财务费用是多少元?"}
{"id": 11, "question": "安记食品股份有限公司在2019年的营业利润率是多少,结果请保留至小数点后两位?"}
{"id": 12, "question": "金枫酒业在2020年的管理费用是多少元?"}
{"id": 13, "question": "2019年爱丽家居企业名称是什么?"}
{"id": 14, "question": "文投控股在2021年的应付职工薪酬是多少元?"}
{"id": 15, "question": "2020年旭升集团的销售费用和管理费用分别是多少元?"}
{"id": 16, "question": "震安科技2019年的办公地址是什么?"}
{"id": 17, "question": "2019年南亚新材料科技股份有限公司研发费用和财务费用分别是多少元?"}
{"id": 18, "question": "新经典文化股份有限公司2020年的速动比率是多少?保留两位小数。"}
{"id": 19, "question": "合并财务报表的编制方法有哪些?"}
{"id": 20, "question": "2019年永新股份企业名称是什么?"}
那么两个变量是目前在数据集里面常见的,一个是年份,另外一个是上市公司名称。一般来说只有上市公司才会有年报。在年报中一些数字类型的问题一般存在于表格之中。这也意味着,本次比赛的两个模态分别是表格数据和非结构化数据。在以往的生成式语言模型的工作经验中可以发现表格类型的数据可以转换为readme.md格式的数据作为支撑。
3.数据说明
机器阅读理解(Machine Reading Comprehension)和问答(Questing Answering)是自然语言处理领域的重要方向,可以让人工智能模型阅读文本,并回答与文本相关的问题。评测任务的任务形式为:给定一组参考文档和问题,要求模型按照指定格式生成答案。问题包含多种类型。
问题示例:
{"ID": 1, "question": "2019年中国工商银行财务费用是多少元?"}
{"ID": 2, "question": "工商银行2019年营业外支出和营业外收入分别是多少元?" }
{"ID": 3, "question": "中国工商银行2021年净利润增长率是多少?保留2位小数。"}
答案示例:
{"ID": 1,
"question": "2019年中国工商银行财务费用是多少元?",
"answer":"2019年中国工商银行财务费用是12345678.9元。"}
{"ID": 2,
"question": "工商银行2019年营业外支出和营业外收入分别是多少元?",
"answer": "工商银行2019年营业外支出为12345678.9元,营业外收入为2345678.9元。"}
{"ID":3",
"question": "中国工商银行2021年净利润增长率是多少?保留2位小数。",
"answer": "中国工商银行2020年净利润为12345678.90元,2021年净利润为22345678.90元,根据公式,净利润增长率=(净利润-上年净利润)/上年净利润,得出结果中国工商银行2021年净利润增长率81.00%。" }
关于第一步的实验,我们先基于原生的chatglm2来回答一遍数据集中的问题,观察相关的结果。
而比赛的题目介绍中也介绍了这是一次既有阅读理解又有生成式语言模型问答的混合形态的任务。那也就是说,我们需要收集一定的中文阅读理解数据集来辅助我们完成这个任务。
关于第二步的实验,基于langchain、WangZeJun/simbert-base-chinese、FAISS作为相似度搜索引擎,寻找和问题相关的报文内容。这里我们用\n来作为数据的分割办法。后期我们可以拼接连续的段落作为检索内容。
#!/usr/bin/env python
# -*- coding:utf-8 _*-
"""
"""
import pandas as pd
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.vectorstores import FAISS
from tqdm import tqdm
# 中文Wikipedia数据导入示例:
embedding_model_name = 'WangZeJun/simbert-base-chinese'
embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name)
# 英雄联盟
docs = []
rows = []
import glob
lol_df = glob.glob("2010/2010/*.txt")
# print(lol_df)
idx = 0
for row in lol_df:
# print(row)
for row in open(row,"r").read().split("\n"):
if len(row) < 512:
rows.append(row)
rows = list(set(rows))
for row in rows:
metadata = {"source": f'doc_id_{idx}'}
idx += 1
# print(row)
# text = row["left"]
if isinstance(row, str):
docs.append(Document(page_content=row, metadata=metadata))
vector_store = FAISS.from_documents(docs, embeddings)
# 保存向量文件,支撑二次复用,向量计算的过程实在是太久了。下回直接读取向量文件就不需要二次
vector_store.save_local('cache/lol/')
vector_store.similarity_search(
"利用输入输出进行训练数据集相似度判断,如果输入和输出和训练数据集差距较大划分为异常输入输出。")
在这一步发生了内存溢出问题,因为本次比赛提供的文本总量实在是太多了,撑爆了内存。这就引出来了下一步的操作,我们需要精简我们的待搜索的非结构化文本数据。
这里我们采用频次筛选法,年报中出现的频次越高,所承载的信息总量越少。
在筛选了低频的段落后,内存的占用得到了明显的降低。成功的保存了报文中的段落信息。
前期不用训练语言模型,先训练的是分段模型,
为了降低向量搜索过程中的内存压力。我们将时间和公司名称与年报数据集相结合。
import json
test_questions = open("test_questions.jsonl").readlines()
question_2020 = []
for test_question in test_questions:
question = json.loads(test_question)["question"]
if "2020" in question:
question_2020.append(question)
stock_mapping = json.load(open("stock_mapping(1).json","r"))
stock_name = []
for stock_mapping_one in stock_mapping.values():
if isinstance(stock_mapping_one,str):
stock_name.append(stock_mapping_one)
整理出了测试数据集中2020年的问题。
应用上市公司数据,构建上市公司索引。
docs = []
rows = []
import glob
lol_df = glob.glob("2020/*.txt")
# print(lol_df)
for question_2020_one in question_2020:
for stock_name_one in stock_name:
if stock_name_one in question_2020_one:
idx = 0
for row in lol_df:
# print(row)
if stock_name_one in row:
for row in open(row,"r").read().split("。"):
if len(row) < 512:
rows.append(row)
rows = list(set(rows))
for row in rows:
metadata = {"source": f'doc_id_{idx}'}
idx += 1
# print(row)
# text = row["left"]
if isinstance(row, str):
docs.append(Document(page_content=row, metadata=metadata))
vector_store = FAISS.from_documents(docs, embeddings)
# vector_store.save_local('cache/lol/')
print(question_2020_one)
print(vector_store.similarity_search(question_2020_one))
continue
在构建向量内容搜索部分,将换行切分年报文本,转换为了按照句号分割。
康希诺生物股份公司在2020年的资产负债比率具体是多少,需要保留至小数点后两位?
[Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了生物\n股份公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_318'}), Document(page_content='本公司根据管理层批准的\n财务预算预计未来 5 年内现金流量,其后年度采用的现金流量增长率预计分别为 17%、13%、10%、\n7%和 5%,不会超过资产组经营业务的长期平均增长率', metadata={'source': 'doc_id_863'}), Document(page_content='2020 年公司实现营业收入 15.82 亿元,同比增长 40.39%;归属于上市公司股\n东净利润 4.06 亿元,同比增长 83.76%,完成公司 2020 年限制性股票激励计划第一期解锁要求的\n净利润增长率不低于 80%的业绩考核目标', metadata={'source': 'doc_id_173'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,生物股份公司合并财务报表中应收账款账面净值 60,561.83 万元,\n账面价值较高', metadata={'source': 'doc_id_612'})]
康希诺生物股份公司在2020年的资产负债比率具体是多少,需要保留至小数点后两位?
[Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1680'}), Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了生物\n股份公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_2239'}), Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了生物\n股份公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_318'}), Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了科前\n生物公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_1102'})]
康希诺生物股份公司在2020年的资产负债比率具体是多少,需要保留至小数点后两位?
[Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_3751'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1680'}), Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了生物\n股份公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_2239'}), Document(page_content='\n 我们认为,后附的财务报表在所有重大方面按照企业会计准则的规定编制,公允反映了生物\n股份公司 2020 年 12 月 31 日的合并及公司财务状况以及 2020 年度的合并及公司经营成果和现金\n流量', metadata={'source': 'doc_id_318'})]
康希诺生物股份公司在2020年的资产负债比率具体是多少,需要保留至小数点后两位?
[Document(page_content='\n\n(b) 2020 年 5 月 26 日,本公司设立全资子公司康希诺生物(加拿大)股份公司,注册资本加币\n 10,000.00 元(约人民币 50,913.00 元),截至 2020 年 12 月 31 日止,本公司尚未完成出资', metadata={'source': 'doc_id_407'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_3751'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1683'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1680'})]
苏州科达在2020年的博士及以上人员数量是多少?
[Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_3017'}), Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_857'}), Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_686'}), Document(page_content='\n 注12: 根据苏州市高新区人才办[2017]17 号《苏州高新区博士后工作资助管理办法》,本\n集团于 2020 年度收到博士后人员经费 280,000.00 元', metadata={'source': 'doc_id_522'})]
河北金牛化工股份有限公司2020年法定代表人对比2019年是否相同?
[Document(page_content='根据公司发展需要,经本公司 2008 年第二次临时股东大会决议通过,2008\n年 5 月 8 日本公司名称由“沧州化学工业股份有限公司”变更为“河北金牛化工股份有限公司”', metadata={'source': 'doc_id_557'}), Document(page_content='现任河北金牛化工股份有限公司监事、沧州金牛劳动服务有限公司执行董事、经理', metadata={'source': 'doc_id_4057'}), Document(page_content='\n 本次权益变动完成后,冀中能源峰峰集团有限公司成为公司第一大股东,公司实际控制人仍\n为河北省人民政府国有资产监督管理委员会', metadata={'source': 'doc_id_4355'}), Document(page_content='\n 2、2020 年 10 月 15 日,公司子公司青岛蔚蓝康成生物科技有限公司出资 1,000,000.00 元设立\n了青岛蔚蓝成和生物科技有限公司,本公司间接持有 100%股份,纳入合并范围', metadata={'source': 'doc_id_1436'})]
金枫酒业在2020年的管理费用是多少元?
[Document(page_content='\n 治理层负责监督金枫酒业的财务报告过程', metadata={'source': 'doc_id_3784'}), Document(page_content='\n\n\n 19 / 189\n\n 2020 年年度报告\n\n\n 无锡市振太酒业有限公司系本公司全资子公司,其主营业务是黄酒生产与经营', metadata={'source': 'doc_id_3275'}), Document(page_content='2019\n\n\n\n\n 35 / 198\n\n 2020 年年度报告\n\n\n\n\n年第二期出资蔚蓝生物集团 750.00 万元、青岛市科技局 500.00 万元已出资到位', metadata={'source': 'doc_id_480'}), Document(page_content='2019\n\n\n\n\n 35 / 198\n\n 2020 年年度报告\n\n\n\n\n年第二期出资蔚蓝生物集团 750.00 万元、青岛市科技局 500.00 万元已出资到位', metadata={'source': 'doc_id_2869'})]
新经典文化股份有限公司2020年的速动比率是多少?保留两位小数。
[Document(page_content='截至\n动的说明 2020 年 12 月 31 日,陈明俊通过大方文化控制公司 1.54%的\n 股份、通过聚英管理控制公司 0.48%的股份', metadata={'source': 'doc_id_1665'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_523'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_1684'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_583'})]
硕世生物在2020年的现金比率是多少?请保留至小数点后两位。
[Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1680'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_1683'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_2085'}), Document(page_content='\n 1、事项描述\n 截至 2020 年 12 月 31 日,科前生物公司在建工程账面价值 35,406.80 万元,占资产总额的\n11.38%', metadata={'source': 'doc_id_3751'})]
上海金桥信息股份有限公司2020年综合收益总额是多少元?
[Document(page_content='\n赵红霞 2012 年至 2015 年任新余市元迪投资有限公司董事长,2012 年至 2018 年任内蒙古金宇生物控股有限公司财务经理,2018 年 4 月至今任\n 内蒙古金宇生物控股有限公司总经理', metadata={'source': 'doc_id_928'}), Document(page_content='\n赵红霞 2012 年至 2015 年任新余市元迪投资有限公司董事长,2012 年至 2018 年任内蒙古金宇生物控股有限公司财务经理,2018 年 4 月至今任\n 内蒙古金宇生物控股有限公司总经理', metadata={'source': 'doc_id_2594'}), Document(page_content='\n赵红霞 2012 年至 2015 年任新余市元迪投资有限公司董事长,2012 年至 2018 年任内蒙古金宇生物控股有限公司财务经理,2018 年 4 月至今任\n 内蒙古金宇生物控股有限公司总经理', metadata={'source': 'doc_id_123'}), Document(page_content='\n赵红霞 2012 年至 2015 年任新余市元迪投资有限公司董事长,2012 年至 2018 年任内蒙古金宇生物控股有限公司财务经理,2018 年 4 月至今任\n 内蒙古金宇生物控股有限公司总经理', metadata={'source': 'doc_id_121'})]
2020年综艺股份资产负债比率是多少?保留2位小数。
[Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_1684'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_523'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_583'}), Document(page_content='本公司管理层认为成本代表了持有的科达融创 10%股权成本于 2020 年 12 月\n31 日公允价值(第三层次)之最佳估计', metadata={'source': 'doc_id_1812'})]
博云新材在2020年对联营企业和合营企业的投资收益是多少元?
[Document(page_content='\n\n\n155\n\n 湖南博云新材料股份有限公司 2020 年年度报告全文\n\n\n3、本企业合营和联营企业情况\n\n本企业重要的合营或联营企业详见附注九、在其他主体中的权益', metadata={'source': 'doc_id_3847'}), Document(page_content='公司于 2020 年 12 月注册成立银川硕世互联网医院有限公司,公司持股\n 比例 100%,注册资本人民币 300 万元', metadata={'source': 'doc_id_1336'}), Document(page_content='公司于 2020 年 12 月注册成立银川硕世互联网医院有限公司,公司持股\n 比例 100%,注册资本人民币 300 万元', metadata={'source': 'doc_id_1213'}), Document(page_content='公司于 2020 年 12 月注册成立银川硕世互联网医院有限公司,公司持股\n 比例 100%,注册资本人民币 300 万元', metadata={'source': 'doc_id_1444'})]
在观察了相关的结构后,我发现需要将问题中的时间和公司名称去除掉进行再进行相似度匹配工作。
docs = []
rows = []
import glob
lol_df = glob.glob("2020/*.txt")
# print(lol_df)
for question_2020_one in question_2020:
for stock_name_one in stock_name:
if stock_name_one in question_2020_one:
idx = 0
for row in lol_df:
# print(row)
if stock_name_one in row:
for row in open(row,"r").read().split("。"):
if len(row) < 512:
rows.append(row)
rows = list(set(rows))
for row in rows:
metadata = {"source": f'doc_id_{idx}'}
idx += 1
# print(row)
# text = row["left"]
if isinstance(row, str):
docs.append(Document(page_content=row, metadata=metadata))
vector_store = FAISS.from_documents(docs, embeddings)
# vector_store.save_local('cache/lol/')
print(question_2020_one)
question_2020_one = question_2020_one.replace("2020年","")
question_2020_one = question_2020_one.replace("2020","")
question_2020_one = question_2020_one.replace(stock_name_one,"")
print(question_2020_one)
print(vector_store.similarity_search(question_2020_one))
continue
这回返回的相似性的文本段落变化效果有所推进。
康希诺公司在的资产负债比率具体是多少,需要保留至小数点后两位?
公司在的资产负债比率具体是多少,需要保留至小数点后两位?
[Document(page_content='除了在香港设立的子\n公司持有以港币为结算货币的资产外,只有小额香港市场投资业务,本公司持有的外币资产及负\n债占整体的资产及负债比例并不重大', metadata={'source': 'doc_id_628'}), Document(page_content='除了在香港设立的子\n公司持有以港币为结算货币的资产外,只有小额香港市场投资业务,本公司持有的外币资产及负\n债占整体的资产及负债比例并不重大', metadata={'source': 'doc_id_4194'}), Document(page_content='除了在香港设立的子\n公司持有以港币为结算货币的资产外,只有小额香港市场投资业务,本公司持有的外币资产及负\n债占整体的资产及负债比例并不重大', metadata={'source': 'doc_id_2248'}), Document(page_content='除了在香港设立的子\n公司持有以港币为结算货币的资产外,只有小额香港市场投资业务,本公司持有的外币资产及负\n债占整体的资产及负债比例并不重大', metadata={'source': 'doc_id_1975'})]
苏州科达在2020年的博士及以上人员数量是多少?
在的博士及以上人员数量是多少?
[Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_1626'}), Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_2006'}), Document(page_content='公司现有博士 33 人,专职研发人员 216 人(同比增加 10.20%)\n ', metadata={'source': 'doc_id_3707'}), Document(page_content='\n\n 108 / 232\n\n 2020 年年度报告\n\n\n\n\n金梅林\n 1954 年出生,中国国籍,无境外永久居留权,博士,教授,博士生导师', metadata={'source': 'doc_id_1142'})]
河北金牛化工股份有限公司2020年法定代表人对比2019年是否相同?
河北股份有限公司法定代表人对比2019年是否相同?
[Document(page_content='\n 本次权益变动完成后,冀中能源峰峰集团有限公司成为公司第一大股东,公司实际控制人仍\n为河北省人民政府国有资产监督管理委员会', metadata={'source': 'doc_id_9'}), Document(page_content='根据公司发展需要,经本公司 2008 年第二次临时股东大会决议通过,2008\n年 5 月 8 日本公司名称由“沧州化学工业股份有限公司”变更为“河北金牛化工股份有限公司”', metadata={'source': 'doc_id_4407'}), Document(page_content='\n2020 年 11 月 3 日,本次股份转让已在中国证券登记结算有限责任公司上海分公司办理完成过户\n登记手续,冀中股份成为本公司控股股东,因受让方冀中股份为转让方冀中集团的控股子公司,\n公司实际控制人未发生变化,仍为河北省人民政府国有资产监督管理委员会', metadata={'source': 'doc_id_3045'}), Document(page_content='\n 本公司是一家在河北省注册的股份有限公司,已在上海证券交易所上市,目前持有沧州市工\n商行政管理局颁发的统一社会信用代码为 91130900104363017U 企业营业执照,法定代表人郑温\n雅', metadata={'source': 'doc_id_4155'})]
金枫酒业在2020年的管理费用是多少元?
在的管理费用是多少元?
[Document(page_content='双方协商同意,托管费\n用按照 50 万元/年计付', metadata={'source': 'doc_id_1478'}), Document(page_content='双方协商同意,托管费\n用按照 50 万元/年计付', metadata={'source': 'doc_id_424'}), Document(page_content='双方协商同意,金牛化\n 工收费按照 50 万元/年计算', metadata={'source': 'doc_id_2823'}), Document(page_content='双方协商同意,金牛化\n 工收费按照 50 万元/年计算', metadata={'source': 'doc_id_817'})]
这里我们得到了一个总结,在出现了公司名称和年份的年报问题中,根据公司名称和年份找到指定的年报后,去掉问题中的公司名称和年份可以带来更好的效果。