pre、前言
本文记录金融大模型相关论文,持续更新。
一、预训练+对齐
1、BloombergGPT: A Large Language Model for Finance(paper)
彭博发布的金融大模型。
2、XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters (度小满 paper、paper2、paper3)
度小满轩辕金融大模型。指令构造方法参考这篇论文《Self-QA: Unsupervised Knowledge Guided Language Model Alignment》。
3、BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark(paper、github)
4、CFGPT: Chinese Financial Assistant with Large Language Model(paper、github)
作者提出了一个中文金融大模型系统框架CFGPT,包括一个数据集(CFData),一个金融大模型(CFLLM),以及一个部署框架( CFAPP)。CFData包括预训练数据集和微调数据集,其中预训练数据集整理了大量中文金融数据,以及少量通用数据,微调数据集包括6种不同的金融任务,一共150万条指令数据。CFLLM以InternLM-7B和13B作为基础模型。作者对中文金融领域的实际需求进行了详尽分析,并创建了CFAPP框架。本框架以LLM为中心,并额外增加了一些模块。CFAPP支持不同的输入格式,包括文本、音频和PDF文件。除了灵活的输入形式之外,CFAPP还提供了多种输出格式,例如原始文本、模板文本和思维导图形式。详细解析参考本文。
5、Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation(paper、github)
本文主要研究了LLama3-70B-Instruct模型在SEC数据上的领域适应能力。通过持续预训练(CPT)和模型合并技术,旨在增强模型在特定领域的性能,同时减轻灾难性遗忘。文章评价了整合金融监管数据到稳健语言模型中的影响,并检验了模型合并技术在保留和提升模型的指令能力方面的有效性。这是一个中间阶段的模型,完整的模型仍在训练中,但已经进行了全面的评估。
6、Large Language Model Adaptation for Financial Sentiment Analysis(2401,paper)
作者训练了一个小型的金融LLM,通过使用金融数据进行预训练和指令微调,改进了金融情绪分析的效果。除了开源模型之外,作者还展示了如何通过 LLMs 生成合成数据以增加指令数据集的质量和数量。预训练数据集如下:
- EDGAR 文件(金融): EDGAR 是由 SEC (美国证券交易委员会)运营的电子数据收集、分析和检索系统在线平台。 公司使用它以电子方式提交注册声明、定期报告和 SEC 要求的其他表格。 这些文档的数据库向所有人开放,允许检索高质量的金融文本。
- 路透社新闻(金融): 路透社是一家专门从事商业和金融的新闻机构,发布了路透社语料库,这是一个可用于 NLP 研究的财经新闻集合。 数据集中使用的集合是 TRC2(Thomson Reuters Text Research Collection),其中包含超过 180 万条新闻。
- 内部数据集(金融):该数据集中的文本主要是句子级别的,这是该项目使用的唯一私人数据。
- The Pile(通用): The Pile数据集(Gao et al. 2020)由 22 个不同的高质量子集组成,其中一些子集来自学术或专业来源。 The Pile数据集的作者认为,多样性增强了通用跨领域知识和大型语言模型的下游泛化能力。 因此数据中包括一般新闻、科学文章、代码等数据。 本项目中保持这些数据类型原来的比例。
微调数据使用了 PIXIU 发布的 FLARE 基准指令数据集,并进行了改进。作者定义了两种不同的改进方法:
- 对于情感分析任务SA,模型必须为给定的情感标签,重新生成带有该标签的输出,以增强答案。
- 对于NER任务, 一个解决方案是让模型同时生成新句子及其 NER 标签,仅通过在提示中包含一些示例来指导模型。 然而,模型生成的句子种类太短,标签也不正确。 作者使用现有的无标签句子,这将生成任务简化为打标签过程。 这种增强使用在私有金融数据集上。 此外,在这种情况下,为模型提供的示例是固定的,以确保提示中存在所有类型的实体。 标签格式使用提示工程选择。
二、Finetune
1、Self-QA: Unsupervised Knowledge Guided Language Model Alignment (paper)
度小满轩辕金融大模型使用self-QA方法构造金融指令数据。
2、FinGPT: Open-Source Financial Large Language Models(AI4Finance paper、github、FinNLP)
作者提出了一种金融大模型 FinGPT。FinGPT采用了以数据为中心的方法,并实现了严格的清理和预处理方法来处理不同的数据格式和类型,从而确保高质量的数据。FinGPT提出了一个四层的FinLLM框架,分别为:*Data source layer,Data engineering layer,LLMs layer和Application layer。*涉及12种金融应用场景,8种金融任务。
3、Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models (AI4Finance paper)
传统的金融情绪识别是典型的分类任务,给定一个新闻,让模型预测该新闻是正向/负向/中性(例如:“新闻:受美联储加息影响,全球股市继续下行”,“负向”)。本文中,作者重新格式化数据集,将分类任务改造成llm适用的生成任务,并在llama上训练了一个Instruct-FinGPT模型,相比传统金融情绪分类模型,在金融上下文理解和数字敏感性上,效果显著提升。作者人工书写了10个指令模版,把instruction和input随机组合成一段prompt,再微调llama模型。指令格式:“Human: [instruction] + [input], Assistant: [output]”。
4、Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models(AI4Finance paper)
金融情绪分析对于估值和投资决策至关重要。然而,直接将 LLM 应用于金融情绪分析存在挑战:LLM 的预训练目标与预测情绪标签之间的差异可能会损害其预测性能。此外,金融新闻的简洁性通常缺乏足够的背景,这会大大降低 LLM 情绪分析的可靠性。为了应对这些挑战,作者引入了一个用于金融情绪分析的检索增强 LLM 框架。该框架包括一个指令调整的 LLM 模块,可确保 LLM 表现为情绪标签的预测器,以及一个检索增强模块,可从可靠的外部来源检索额外的背景。与传统模型和 ChatGPT 、LLaMA 等 LLM 进行对比,我们的方法在准确率和 F1 分数方面实现了 15% 至 48% 的性能提升。
5、FinGPT: Democratizing Internet-scale Data for Financial Large Language Models(AI4Finance paper、FinNLP、FinGPT、doc)
本项目整理了互联网级别的金融数据,包括各种金融领域的数据源,例如新闻、社交媒体、公司公告、热点趋势和金融类数据集,并放在了FinNLP 项目下。可以使用这些金融数据,结合指令prompt构造sft数据,微调金融大模型。
6、FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets(AI4Finance paper、github、FinGPT)
FinGPT-Benchmark项目给各种传统金融任务,添加了指令调优模版,以适应当前llm指令调优范例,可以参考该项目的prompt构造方法,将原始的金融领域任务改为适用于大模型训练的prompt,得到金融领域的sft数据。prompt参考github。同时,FinGPT-Benchmark项目也引入了一个端到端训练和评测基准,该方案不仅适合金融领域,而且可以对llm 的基本能力、复杂多任务操作,进行全面系统评估。
7、An Effective Data Creation Pipeline to Generate High-Quality Financial Instruction Data for Large Language Model (paper)
本文提出了一个根据金融研报合成sft数据的pipeline。作者使用 ChatGPT 模拟投资者和金融专家开展对话,并让人类金融专家审核修正数据,从而完善数据集。该pipeline产生了 103k 多轮对话数据。采用 GPT-4 评估最终的微调模型,此方法在生成准确、相关和金融风格的响应方面取得了重大进展。数据收集过程主要包括四个步骤:
(1)选择一个高质量的语料库:作者这里选择了东方财富的经济研究报告,作为金融语料库。
(2)模拟对话:使用研究报告的内容作为上下文 ,让ChatGPT分别模拟投资者-金融专家,构建对话。首先让ChatGPT模拟投资者,根据研报信息提出深刻的问题。随后让ChatGPT从金融专家的角度,利用报告中给出的事实和数字回答问题,如此对话数轮,即可获得多轮对话数据。对话流程如下左图所示。
(3)领域专家修订问题:得到对话数据后,作者编制了一个生成问题列表。为了确保收集数据的多样性和质量,接下来,需要实施一个两阶段的专家审查过程.第一阶段,使用文本聚类算法根据主题相似性对问题进行分组。从每个组中抽样选择有代表性的问题,交给金融专家小组(5个人),由金融专家小组评估数据在金融领域的主题多样性。专家需要确认这些问题是否充分涵盖了广泛的金融主题。如果缺少相关金融领域主题,则指示专家在这些领域提出问题。这个过程可以有效识别出数据集中缺乏的金融主题,并补足多样性。第二阶段,随机抽样问题,并提交给金融专家团队,他们的任务是识别和去除任何金融无关的、误导性的或与典型的金融术语不一致的问题。另外,还需要删去相似度较高(大于99%)的问题。通过以上两步操作,确保了最终数据集的质量、多样性和相关性。
(4)抽样和扩大数据集:经过专家修订过程后,随机抽样一批问题,重新进入数据收集pipeline。用这些问题询问ChatGPT,进一步增强对话数据的规模和多样性。这个采样和增强的过程重复多次。通过该过程,作者最终收集了103k个多轮对话数据。数据集的主题分布如下右图所示。使用该数据集进行指令调优,可以显著提升模型在财务查询时生成结果的精确性和和相关性。
8、DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning(paper、github)
作者提出了一个金融大模型框架DISC-FinLLM,包括四个组件分别是:金融咨询、金融任务、金融计算和检索增强。这四个组件是四个LoRA模块,使用者可以根据需求切换对应的模块,使用该功能。详细解析参考这篇文章。具体来说,这四个模块构造方法如下:
1)金融咨询:作者从FiQA数据集构建咨询指令。由于原数据是英文且质量不高,作者使用ChatGPT将原指令翻译为中文,并重新生成答案。为了加强LLM对金融条款的理解,作者从网上收集了超过200个金融条款(例如,杠杆收购/LBO),并使用ChatGPT来生成相应的QA对。此外,作者还从国内经济论坛和金融投资论坛收集活跃的金融帖子。基于self-chat方法引导ChatGPT围绕论坛主题生成多轮对话。作者精心构造了生成答案的prompt,确保回答与中国的国情、立场、态度、语言风格等相一致,具体的prompt模板,请参考论文附录A。
2)金融任务:作者主要从两种来源构建指令:已有的中文金融NLP数据集和无标签金融文本。对于中文金融NLP任务,作者一共收集了4类10个开源数据集,这4类分别是:Sentiment Analysis、Information Extraction、Text Classification和Text Generation**。**此外,还包括一个中文通用类多项选择QA数据集C3,以适应后续的评估机制。作者为每个数据集手工编写20多个prompt模板,并为所有非生成任务手动编写0-shot和few-shot提示。确保LLM在保持上下文学习能力的同时增强0-shot能力。对于无标签金融文本,作者从东方财富网收集了总共87k个文章(包括69k金融新闻和18k行业研究报告),时间跨度2023年1月1日-2023年8月16日。这些文章涵盖了广泛的金融主题,包括公司披露、事件报道、宏观经济分析和行业研究等。
3)金融计算:金融场景存在大量计算题,为了构造计算指令,作者使用了四种计算工具,每种工具的输入和输出都不一样。作者首先构建了一个种子任务池,它由三个部分组成:金融考试类手写计算题、金融研报类算术题和一般数学题(Belle School Math)。参考Toolformer,作者将问题的答案插入上述四种工具调用模板,构造QA对。为了增加数据量和多样性,作者使用ChatGPT通过self-instruction和基于种子任务的few-shot CoT prompt,生成超过50000个新的计算问答对。
4)检索增强:为了进一步提高检索增强指令的生成能力,特别是在金融上下文、熟练利用参考材料等方面,作者通过三步构建检索增强的指令数据。该方法的三个步骤如下: 1)问题生成:从金融材料(例如新闻、研报等)中构造金融分析问题;2)检索参考材料:从专有知识库中检索问题相关的文档,设置一个相似度阈值,超过阈值都会被召回;3)生成答案:将生成的问题与检索到的参考资料合并,生成答案。
9、PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance(FinMA paper、github)
PIXIU(FinMA)是一个金融领域sft模型,论文贡献如下:
- 1)作者创建了一个金融sft数据集FIT,包括5个任务和9个数据集,136K样本。任务类别包括:金融情感分析 、新闻标题分类、命名实体识别NER、金融问答、股票趋势预测。除了少数数据集外,作者为每个数据集构造了10个prompt。
- 2)基于FIT数据集,创建了一个金融LLM评估指标FLARE,具有9种金融NLP理解和预测任务。
- 3)发布了金融LLM-FinMA,在3个财务NLP任务和1个财务预测任务上实现了SOTA。
- 4)作者比较了FinMA和现有的llm。结果表明了FinMA的优越性和局限性,推进金融领域llm的未来方向。
10、Data-Centric Financial Large Language Models(paper)
论文提出了一种以数据为中心的方法,使llm能够更好地处理金融任务。并使用多任务提示的微调方式,训练了一个金融大语言模型 FLLM,以实现数据的预处理和预理解。为了降低高质量标注数据的获取成本,作者提出了一种溯因增强推理(AAR)方法,通过修改FLLM自身输出的伪标签自动生成训练数据,显著提高了标签质量。 实验表明,以AAR为中心的FLLM大大优于基线模型,在金融分析和解释任务上达到了sota水平。论文还开源了一个新的金融分析和解释基准。
11、GPT-FinRE: In-context Learning for Financial Relation Extraction using Large Language Models(paper、github)
关系提取(RE)是自然语言处理(NLP)中的一项关键任务,旨在识别和分类文本中提到的实体关系。在金融领域,从新闻文章、收益报告和公司文件等金融文档中提取信息都会用到关系提取。本文描述了从 REFinD 数据集上进行关系提取的方案。作者采用 OpenAI 模型结合上下文学习 (ICL) 的机制。利用两种检索策略从给定测试示例的训练数据中,查找前 K 个相关的上下文学习示例。第一个检索机制是无学习的密集检索器,另一个是基于学习的检索器。实验结果中最佳 F1 分数 0.718。
12、InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning(2309,paper、github)
作者提出了一个金融大语言模型 InvestLM,基于LLaMA-65B训练。受LIMA论文启发,作者手动策划了一个小型但多样化的指令数据集(1335条),涵盖了广泛的金融相关主题,包括以下7个类别:
- Stackexchange QFin:从量化金融委员会中选择一组问题及其相应的高票答案。
- CFA questions:从特许金融分析师 (CFA) 考试中选择一组带有详细答案(包括解释)的问题。
- Academic Journals:从顶级金融经济学期刊(例如 Journal of Finance)中选择文章,并手动创建与资产定价和风险管理相关的问题,并从文章中征求答案。
- Textbooks:选择了几本经典的金融教材(例如《投资》,第10版),并从这些教材中选择练习作为指令/输入,并找到其对应的标准答案作为输出。
- SEC filings:从美国证券交易委员会备案中,选择收益电话会议记录和 SEC 文件,根据文件内容提出几个问题,然后从文本中提取相应的答案。
- Financial NLP tasks:重新格式化几个金融 NLP 任务,例如金融情绪分析和数字推理作为指令。值得注意的是,即使对于来自金融 NLP 任务的指令,也不会直接使用相应的标签作为输出。而是手动构造答案增强标签。
- Investment questions:集思广益讨论金融和投资相关问题,然后使用 ChatGPT 和 Claude-2 生成答案。随后,手动验证并解释最佳答案作为输出。
每种指令收集数百个示例,每个示例都是一个包含instruction, input 和 output 的元组。作者采用人工评估和GPT4评估两种方式。结果表明,InvestLM 在理解金融文本方面表现出强大的能力,金融专家评估表明 InvestLM 可与最先进的商业模型(GPT-3.5、GPT-4 和 Claude-2)相媲美。论文给出了两种评估prompt。
13、GPT-InvestAR: Enhancing Stock Investment Strategies through Annual Report Analysis with Large Language Models(paper)
上市公司的年度报告包含有关其财务状况的重要信息,可帮助评估公司股价的潜在影响。这些报告本质上是全面的,多达 100 页,有时甚至超过。分析这些报告即使对于单个公司来说都很麻烦,更不用说现有的所有公司了。多年来,金融专家已经能够相对快速地从这些文件中提取有价值的信息。然而,这需要多年的实践和经验。本文旨在通过利用大型语言模型 (LLM) 来简化评估公司年报。LLM 生成的见解被汇编成 Quant 风格的数据集,并通过历史股价数据进行增强。然后使用 LLM 输出作为特征来训练机器学习模型。测试结果显示,相对于 S&P500 的回报,本模型在预测公司股价走势上表现优异。代码开源。
14、WeaverBird: Empowering Financial Decision-Making with Large Language Model, Knowledge Base, and Search Engine(paper、github)
作者提出了WeaverBird,一个专为金融业量身定制的智能对话系统。本系统基于GPT架构的大型语言模型,并且使用了广泛的金融语料进行微调,可以理解复杂金融问题。此外,系统还集成了一个本地知识库和搜索引擎,用来检索相关信息,提高结果可信度。广泛的金融问答和评估表明,本系统优于其他模型。作者微调模型使用了四种数据,分别是Generation、Summarization、Close-book QA和Open QA,文中介绍了这些数据的构造方法,值得学习。详细内容请参考这篇文章。
15、PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation(华为 paper)
论文首先分析了最先进的语言模型架构并观察了特征崩溃问题。基于理论分析,我们提出非线性对于语言模型也非常重要,这通常在用于视觉任务的卷积神经网络中研究。然后引入具有可以忽略的微小计算的序列信息激活函数,并进一步使用增强的快捷方式来增强模型非线性。然后我们证明了所提出的方法对于通过精心设计的消融来增强模型非线性非常有效;因此,我们提出了一种用于建立现代的新型高效模型架构PanGu-π,在金融、法律等高价值领域开展研究,开发了面向实际应用的LLM“云山”,结果表明“云山”在基准测试中可以超越其他同规模模型。
16、Leveraging Large Language Models for Financial Tables Question-Answering(paper)
待论文更新...
17、Conversational Financial Information Retrieval Model (ConFIRM)(paper、github)
论文提出了ConFIRM,一个基于llm的金融信息检索模型,专门用于查询意图分类和知识库标记。ConFIRM包括两个模块:1)一种构造金融领域指令数据的方法。2)任务评估方法。论文参考self-instruction方法构造金融领域指令数据。具体来说,利用大型语言模型(如GPT-3.5)生成与金融知识库相关的自然语言问题,并基于数据类别和字段标签生成对应的答案。 经过几轮迭代生成、人工筛选、个性化转换等步骤,最终得到了包含3300个样本的训练集和1000个样本的测试集。
18、FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications(paper)
本研究提出了一种基于大型语言模型(LLM)的金融情感分类方法,旨在提高算法交易决策的质量。通过微调Llama 2 7B模型,研究者开发了名为FinLlama的模型,该模型不仅能够分类情感倾向,还能量化情感强度。FinLlama通过参数高效微调(PEFT)和8位量化,减少了资源消耗,使得即使是标准计算资源也能执行微调。模拟结果表明,FinLlama在构建高回报投资组合方面表现出色,尤其在市场波动和不可预测时期。
19、Retrieval-Augmented Chain-of-Thought in Semi-structured Domains(paper)
本研究探讨了基于法律和金融领域的RAG模型。具体来说, 作者提出的方法主要包括以下内容:
1)检索(Retrieval):利用法律和金融数据的半结构化特性,高效检索出与问题相关的上下文信息。具体包括:
对于法律SARA数据集:(1)使用基于正则表达式的提取器从问题中识别出相关的法律条款;(2)使用基于规则的语法分析器将法律条文分割到最细的子条款层级;(3)采用3种不同的检索策略:提及的条款(mentioned-only)、整个条款(entire-section)、引用的条款(references)。
对于FinQA数据集:(1)使用预训练的BERT模型从金融文本中检索相关句子;(2)保留表格的原始格式,避免将其转换为文本导致信息丢失。
2)回答(Answering):利用大型语言模型GPT-3和LLaMA2,结合不同的提示(prompting)技术生成答案:包括:Zero-shot: 只给出检索出的上下文和问题;Few-shot: 在上下文和问题前添加几个问答示例对;Chain-of-Thought(CoT): 在问答示例对中包含推理链,模型需生成答案和推理过程。
总的来说,该方法的核心是利用数据的半结构化特点进行高效检索,结合大型语言模型和链式思维提示生成答案和推理过程。避免了标注数据和领域模型微调的成本,同时提供了可解释性。
20、No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks(PIXIU团队 paper、github)
作者提出ICE-PIXIU,一个综合性的金融框架,包括ICE-INTENT和ICE-FLARE。ICE-PIXIU集成了一系列中英文任务,连同翻译原始的英语数据集,丰富了双语金融建模的广度和深度。模型在双语环境中显著增强了传统llm和现有金融llm,详细解析参考本文。论文开源内容如下:
- ICE-INTENT:一个中英双语金融LLM,它展示了出色的中英文双语能力。
- 开源多样化的中、英文数据集和翻译数据集: ICE-PIXIU通过结合各种中英文分类、提取、推理和预测nlp任务,提升了金融nlp任务效果。作者精心收集了40个数据集,其中包括1,185,076个原始数据、603,940个指令微调数据和95,091个评估数据,覆盖了广泛的金融任务。该集成如附录表1所示,包含18个中英双语数据集。
- 专业的金融注释prompt: ICE-PIXIU提供了一套多样化的,高质量的,专业注释的提示,应用于微调指令。作者让人类专家为每个数据集设计了30-40个prompt,并筛选出最好的一个作为最终prompt。
- 提出跨语言金融评估基准 ICE-FLARE:这是一个严格的跨语言评估基准,确保模型在不同语言上下文中的一致性能。包括10个NLP任务,20个双语特定任务,总计1185k个数据。全面评估强调了合并这些双语数据集的优势,特别是在翻译原始的英语数据,提高了语言的灵活性和在金融环境下的分析敏锐度。
21、NumLLM: Numeric-Sensitive Large Language Model for Chinese Finance(paper)
金融场景有很多数值计算任务,而LLM自回归预测下一个token的方式,无法完全学习数值变量的上下文依赖性,导致模型表现一般。针对这一问题,作者提出了一个数值敏感的金融大模型 NumLLM。具体执行方案如下:
- 构建金融教科书语料库Fin-Textbooks:收集24份预处理后的金融教科书文本,涵盖34个金融主题。预处理步骤包括过滤非金融内容(目录、章节标题、出版信息、参考文献等)、数字格式校准(例如空格和段落分隔符),最终数据量6.91M tokens。
- 持续预训练(Continual Pre-training):在Fin-Textbooks上使用LoRA(低秩自适应)进行持续预训练,让基础模型适应金融领域。
- 数值敏感选择调优(Numeric-Sensitive Choice Tuning, NumCT) :(1)从Fin-Textbooks提取包含数值变量的语句实例;(2)对每个实例中的数值变量生成4个选择选项(包括正确答案);(3)构建NumCT指令数据集;(4)使用上述数据集,基于LoRA微调得到LoRA模块。
- 合并模型:使用奇异值分解SVD,将持续预训练LoRA和NumCT的LoRA模块混合,再将混合后的LoRA模块与基础模型合并,得到NumLLM。
实验结果表明,NumLLM可以提升基础模型的金融能力。二次预训练和SFT,都可以提升下游效果,尤其是二次预训练提升更多。
22、A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis(paper)
金融情绪分析,作者采用了两种方法:上下文学习(重点关注 gpt-3.5-turbo 模型)和金融领域数据集微调。考虑到大参数 LLMs 微调的高计算成本,作者重点是较小的 LLMs,范围从 250M 到 3B。结果表明,即使是小参数模型和少量训练数据集,微调的 LLMs 也可以实现与最先进的微调 LLMs 相当的性能。此外,LLMs 的零样本和单样本性能,可以达到微调后的小参数 LLMs,并比肩最先进的结果。另外,增加 prompt 示例数量,无法持续提高金融领域情绪分析能力。
23、Evaluating LLMs’ Mathematical Reasoning in Financial Document Question Answering(微软印度研究院,paper)
MR-India提出的金融表格推理prompt技术EEDP。在性能方面匹配或优于其他基线,同时提供对此类任务的LLMs能力的细致入微的理解。这种提示方法,称为 EEDP(Elicit⟶Extract⟶Decompose⟶Predict)。与现有的即时工程方法相比,这种创新方法可产生增强的性能。这种明确提示模型将其响应分成几个部分的方法可以更容易解释、更细致地理解模型在执行此类任务时的弱点。
本研究探讨了LLM在四个金融表格数据集上的数学推理效果,分别为:TATQA、FinQA、ConvFinQA 和 Multihiertt。通过对各种模型和提示技术进行大量实验,我们评估了LLMs如何适应复杂的表格和数学任务。我们关注对表复杂性和性能变化的敏感性,并增加算术推理步骤的数量。结果提供了对LLMs在处理半结构化表的复杂数学场景方面的能力和限制的深入见解。
24、Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models(paper、github)
对于传统的非生成深度学习模型来说,解释股票预测通常是一项艰巨的任务,其中解释仅限于可视化重要文本的注意力权重。如今,大型语言模型 (LLMs) 提出了这个问题的解决方案,因为它们具有为决策过程生成人类可读解释的已知能力。然而,股票预测任务对于 LLMs 来说仍然具有挑战性,因为它需要能够权衡混乱的社交文本对股票价格的不同影响。随着解释组件的引入,问题变得越来越困难,这需要 LLMs 口头解释为什么某些因素比其他因素更重要。另一方面,要针对此类任务进行微调 LLMs,需要对训练集中的每个股票走势进行专家注释的解释样本,这既昂贵又不切实际。
为了解决这些问题,我们提出了总结-解释-预测(SEP)框架,该框架利用口头自我反思代理和近端策略优化(PPO),允许LLM自学如何生成可解释的股票以完全自主的方式进行预测。反思代理学习如何通过自我推理过程解释过去的股票走势,而 PPO 训练器训练模型根据测试时的输入文本生成最可能的解释。 PPO 训练者的训练样本也是反思过程中生成的响应,这消除了对人工注释者的需要。使用我们的 SEP 框架,我们对专门的 LLM 进行了微调,该方法在股票分类任务中的预测精度和马修斯相关系数方面优于传统深度学习和 LLM 方法。为了证明我们框架的泛化能力,我们在投资组合构建任务上进一步测试它,并通过各种投资组合指标证明其有效性。代码开源github。
25、Financial Statement Analysis with Large Language Models(paper)
我们调查LLM是否能够以类似于专业分析师的方式成功执行财务报表分析。我们向 GPT4 提供标准化和匿名的财务报表,并指示模型对其进行分析以确定未来收益的方向。即使没有任何叙述性或特定于行业的信息,LLM 在预测收益变化的能力方面也优于财务分析师。在分析师陷入困境的情况下,LLM 比人类分析师表现出相对优势。此外,我们发现 LLM 的预测精度与经过严格训练的最先进 ML 模型的性能相当。 LLM 预测并非源于其训练记忆。相反,我们发现LLM生成了有关公司未来业绩的有用的叙述性见解。最后,我们基于 GPT 预测的交易策略比基于其他模型的策略产生更高的夏普比率和阿尔法。综上所述,我们的结果表明LLMs可能在决策中发挥核心作用。
26、LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction(paper)
在本研究中,我们引入了一种名为 LLMFactor 的新颖框架,该框架采用顺序知识引导提示 (SKGP),使用 LLMs 来识别影响股票走势的因素。与之前依赖关键词或情绪分析的方法不同,这种方法侧重于提取与股市动态更直接相关的因素,为复杂的时间变化提供清晰的解释。我们的框架指导LLMs通过填空策略创建背景知识,然后从相关新闻中识别影响股价的潜在因素。在背景知识和已确定因素的指导下,我们利用文本格式的历史股票价格来预测股票走势。对来自美国和中国股票市场的四个基准数据集的 LLMFactor 框架进行了广泛评估,证明了其相对于现有最先进方法的优越性及其在金融时间序列预测方面的有效性。流程:匹配和获取新闻背景知识 -> 生成可能影响股票价格的因素 -> 预测股票价格走势。
三、金融能力评估
1、WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain(paper、github)
论文提出了金融语言理解评估基准 FLUE,其中包括金融领域 5 个 NLP 任务的新基准以及先前研究中使用的常用基准。对这些基准进行的实验表明,论文模型在各种 NLP 任务上的表现都优于先前文献中的模型。
2、The FinBen: An Holistic Financial Benchmark for Large Language Models(FinAI paper、github)
PIXIU团队提出的金融大模型评估基准FinBen(原名FLARE)。FinBen包含了23个金融任务(35个数据集),FinBen评估分为三个难度等级,以评估llm在量化、提取、理解、生成、预测方面的水平。
3、KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains(paper、github)
作者提出了一个评估llm解决金融领域复杂数学问题的新基准 KnowledgeeMath。首先,KnowledgeMATH包含1259个文本和表格混合的问题,内容范围涵盖大学水平金融知识。第二,作者提供专家注释,详细Python程序格式的解决方案。确保llm评估的高质量基准。最后,作者采用不同的激励策略(如思维链和思维程序)评估14个llm。目前表现最好的系统(即GPT-4 with Program-of-Thoughts)准确率只有45.4%,还有很大的提升空间。而知识增强型llm可以提高效果,它仍然明显低于人类专家94%的表现。
4、BizBench: A Quantitative Reasoning Benchmark for Business and Finance(paper)
作者提出BizBench,评估模型金融问题能力的基准。BizBench包括八个定量推理任务,重点是通过程序合成对金融数据进行问答(QA)。我们从新收集和增强的QA数据中包含了三个以金融为主题的代码生成任务。此外,我们隔离了金融QA所需的推理能力:阅读理解金融文本和表格以提取中间值,以及理解计算复杂解决方案所需的金融概念和公式。总的来说,这些任务评估一个模型的金融背景知识、分析金融文档的能力,以及用代码解决问题的能力。我们对开源和商业llm进行了深入的评估,比较和对比了以代码为中心的模型和以语言为中心的模型的行为。我们证明,当前的性能瓶颈是由于llm有限的商业和金融理解,突出了该领域内定量推理具有挑战性的基准的价值。
5、BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark(paper、github)
论文提出了中文金融语言理解和生成评估基准 BBT-CFLEB,其中包括六个数据集,涵盖理解和生成任务。我们的目标是促进中文金融领域 NLP 开发的研究。论文推出了基于 T5 模型的全新中文金融预训练语言模型 BBT-FinT5。作者构建了 BBT-FinCorpus,这是一个大规模金融语料库,包含来自四个不同来源的约 300GB 原始文本,未开源。
6、DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning(paper、github)
本文评估部分提出了FinCUGE金融评估基准,包括9个金融nlp任务。包括情感分析、关系提取、摘要、文本分类、事件提取等任务。这6个任务对应于6个数据集,即FinFE、FinQA、FinCQA、 FinNA,FinRE和FinESE。
7、FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models(paper、github)
本文介绍了FinEval,一个专门为金融llm设计的评估基准。FinEval是一个高质量的多项选择题的集合,涵盖金融,经济,会计和证书。它包括4,661个问题,涵盖34个不同的学科。为了确保全面的模型性能评估,FinEval采用了一系列提示类型,包括零提示和少提示,以及仅回答和思维链提示。在FinEval上评估最先进的中文和英文llm,结果表明,在不同的提示设置下,只有GPT-4达到了接近70%的准确率,这表明llm在金融领域知识方面具有显着的增长潜力。我们的工作提供了一个更全面的金融知识评估基准,利用模拟考试的数据,涵盖了广泛的llm评估。
8、CGCE: A Chinese Generative Chat Evaluation Benchmark for General and Financial Domains(度小满 paper)
度小满提出的中文金融大模型评估基准。CGCE 基准测试涵盖多种任务,包括 200 个通用问题和 150 个金融领域QA问题。
9、CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model(paper、github)
本文引入了CFBenchmark,一个中文金融llm评估基准。CFBenchmark基础版本从三个方面(即识别、分类和生成)评估中文金融llm文本处理的基本能力,包括八个任务,涵盖的金融文本长度从50到1800多个字符不等。我们使用CFBenchmark-Basic对文献中现有的几个LLM进行了实验,实验结果表明,虽然一些LLM在特定任务中表现出色,但总体而言,现有模型在金融文本处理的基本任务上仍有很大改进空间。未来,我们计划探索CFBenchmark的高级版本,旨在进一步探索语言模型作为中文金融助手在更深层次上的广泛能力。
10、Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing(paper)
为了评估 LLM 解决金融 NLP 任务的能力,我们提出了 FinLMEval,这是一个金融语言模型评估框架,包含九个数据集,旨在评估语言模型的性能。这项研究比较了LLM的性能。研究结果表明,虽然一些仅解码器的 LLM 通过零样本提示在大多数金融任务中表现出色,但它们通常落后于经过微调的专家模型,尤其是在处理专有数据集时。我们希望这项研究为继续努力在金融领域构建更先进的 LLM 提供基础评估。
11、FinanceBench: A New Benchmark for Financial Question Answering(paper)
FinanceBench 是首个用于评估 LLM 在开放式金融问答 (QA) 场景中的测试基准。它包含 10231 个上市公司问题,以及相应答案和支持数据。FinanceBench 中的问题在生态上是有效的,涵盖了多种场景。它们旨在明确且易于回答,以作为最低性能标准。我们在 FinanceBench 的 150 个案例样本上测试了 16 种最先进的模型(包括 GPT-4-Turbo、Llama2 和 Claude2,具有向量存储和长上下文提示),并手动审查了它们的答案(n=2400)。这些案例是开源的。结果表明,现有的 LLM 在金融 QA 方面有明显的局限性。值得注意的是,与检索系统一起使用的 GPT-4-Turbo 错误回答或拒绝回答 81% 的问题。虽然增强技术(例如使用更长的上下文窗口来输入相关证据)可以提高性能,但由于延迟增加,它们对于企业环境而言并不现实,并且无法支持更大的金融文档。我们发现,所有受试模型都存在一些弱点,例如幻觉,这限制了它们在企业中的适用性。
12、Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams(paper)
本研究旨在评估llm的金融推理能力。我们利用特许金融分析师(CFA)计划的模拟考试问题,对ChatGPT和GPT-4在金融分析中的应用进行全面评估,考虑0-shot(ZS),思维链(CoT)和few-shot(FS)场景。我们对这些模型的性能和局限性进行了深入分析,并估计它们是否有机会通过CFA考试。最后,我们概述了潜在的策略和改进的见解,以提高llm在金融领域的适用性。从这个角度来看,我们希望这项工作为未来的研究铺平道路,通过严格的评估,继续加强llm在金融推理方面的研究。
四、多模态金融llm
1、FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis(paper)
本文提出了FinVis-GPT,一种专门为金融图表分析设计的新型多模态大语言模型(LLM)。FinVis-GPT能够解释金融图表并提供有价值的分析。为了训练FinVis-GPT,作者生成了一个面向金融任务的数据集,用于预训练对齐和指令调优,包括各种类型的金融图表及其相应的描述。论文贡献如下:
\1) 构造多模态金融数据集
- 预训练对齐数据集:利用2006-2023年中国A股历史日线数据,生成包含K线图和相应描述的数据对。
- 指令微调数据集:生成包含K线图、指令问答的数据集,用于指令微调模型回答与金融K线图相关的查询。
\2) 模型训练
- 预训练: 在生成的预训练数据集上, 基于LLaVA方式预训练, 让模型学习K线图和文本描述之间的关系。
- 指令微调: 在生成的sft数据集上微调, 让模型学习如何针对金融K线图生成相关且准确的回复。
- 正则化和模型验证: 使用dropout、weight decay等正则化技术防止过拟合,并验证。
实验评估方面,作者在描述生成、问答和趋势预测三个任务上,将FinVis-GPT与LLaVA、MPLUG-Owl和MiniGPT-4等基线模型进行比较。实验结果表明,FinVis-GPT在金融K线图分析方面表现优于其他模型。总的来说,FinVis-GPT使用了一个专门的金融K线图数据集进行预训练和指令微调,从而让大型多模态语言模型能够更好地理解和分析金融K线图。
2、A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist(paper、github)
金融交易是市场的重要组成部分,由包含新闻、价格和 K 线图的多模态信息环境提供信息,并涵盖各种资产的量化交易和高频交易等各种任务。虽然深度学习和强化学习等先进的人工智能技术在金融领域得到广泛应用,但它们在金融交易任务中的应用往往面临挑战,因为对多模态数据的处理不足以及在各种任务中的通用性有限。为了应对这些挑战,我们提出了 FinAgent,这是一个具有金融交易工具增强功能的多模态基础代理。FinAgent 的市场情报模块处理各种数据(数字、文本和视觉),以准确分析金融市场。其独特的双层反射模块不仅能够快速适应市场动态,而且还结合了多样化的记忆检索系统,增强了代理从历史数据中学习和改进决策过程的能力。代理对行动推理的重视增强了人们对其金融决策的信任。此外,FinAgent 整合了既定的交易策略和专家见解,确保其交易方法既以数据为驱动,又植根于健全的金融原则。通过在包括股票和加密货币在内的 6 个金融数据集上进行全面实验,FinAgent 在 6 个金融指标方面显著优于 9 个最先进的基线,平均利润提高了 36% 以上。具体来说,在一个数据集上实现了 92.27% 的回报率(相对改善了 84.39%)。值得注意的是,FinAgent 是第一个专为金融交易任务设计的高级多模式基础代理。
3、FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models(paper、github)
作者提出了一套先进的多模态金融大模型 FinTral,基于Mistral-7b训练。FinTral使用了文本、数字、表格和图像数据。通过大量的文本预训练、指令微调和RLAIF显著增强了FinTral 的金融能力。同时论文还提出了一个金融训练和评估基准FinSet,包括9个任务和25个数据集(包括金融幻觉评估)。通过将FinTral模型和先进的工具与检索方法相结合,最终的增强模型FinTral-DPO-T&R,展示了强大的零样本性能。它在所有评估任务中都优于ChatGPT-3.5,并在5项任务中(共9项)超过GPT-4 。论文还证明了FinTral在多领域金融文本实时分析和决策方面具有卓越的潜力。详细解析参考本文。
五、其他(综述类)
1、Large Language Models in Finance: A Survey(paper)
金融llm综述论文.
2、A Survey of Large Language Models in Finance (FinLLMs)(paper、github)
金融大模型综述。论文调研了金融大模型相关发展,包括其历史、技术、评估以及机遇和挑战。从通用模型到金融模型,从FinPLM到FinLLM的各种技术。基于各种金融任务,作者总结了6种传统金融任务评估基准,8种高级金融任务评估基准,同时给出了对应的数据集。该调查将积极更新,包括进一步评估高级金融 NLP 任务、收集金融数据集以及共享 FinLLM 用例,可以持续关注作者的github。
3、Dólares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English(FinAI paper、github)
双语金融大模型:西班牙语和英语。
4、A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law(paper、github)
在快速发展的人工智能领域,GPT-3 和 GPT-4 等大型语言模型 (LLM) 正在彻底改变金融、医疗保健和法律领域的格局:这些领域的特点是依赖专业知识、数据采集具有挑战性、风险高且监管合规性严格。我们强调了 LLM 在增强医疗保健诊断和治疗方法、创新金融分析以及完善法律解释和合规策略方面的重要作用。此外,我们批判性地审查了这些领域 LLM 应用的伦理问题,指出了现有的伦理问题以及对遵守监管规范的透明、公平和强大的人工智能系统的需求。通过对当前文献和实际应用进行全面回顾,我们展示了 LLM 的变革性影响,并概述了跨学科合作、方法论进步和道德警惕的必要性。作者还在github创建了一个阅读清单,用于跟踪该主题下的最新进展,并将不断更新。
5、FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models(paper)
AI4Finance提出的金融agent平台。
相关博客&资源
1、AI4Finance Foundation(github)
AI4Finance 基金会是一个非营利组织,致力于金融领域人工智能的发展。使命是强调促进标准化实践和开发开源资源,使研究界和行业专业人士受益。目前,AI4Finance的github库,拥有约 28,000 个 Github star 和全球数以万计的依赖项目。该组织论文高产,可以持续跟踪。
- 短期目标:增强核心库的可用性、生产力和性能。增加开源金融的采用,维护成熟的环境,并整合关键项目。
- 长期目标:为金融专业人士开发标准化工具和 API。将我们的开源工具包扩展到基本元素之外。
2、The Fin AI(github)
中文金融大模型开源组织,代表项目:PIXIU系列。成员包括武汉大学、曼彻斯特大学、佛罗里达大学、哥伦比亚大学、港中文深圳、四川大学、云南大学等13个机构。论文高产,可以持续跟踪。
3、金融相关的workshops和项目。
- [ACL FNP] Financial Narrative Processing Workshop 2022
- [ACL FinNLP] Financial Technology and Natural Language Processing Workshop 2023
- [ECONLP] Economics and Natural Language Processing Workshop 2024
- [AAAI] AAAI 2024 workshop on AI in Finance for Social Impact 2024
- [AAAI MUFFIN] The AAAI-2023 Workshop On Multimodal AI For Financial Forecasting2023
- [SIGIR KDF] Knowledge Discovery from Unstructured Data in Financial Services 2023
- [IJCAI FinLLM ] International Symposium on LLM for Financial Services (FinLLM 2023)@IJCAI 2023-08
由同济大学与上海AI Lab联合团队推出,包含了金融评测基准(CFBenchmark)与金融大模型(CFGPT)。金融评测基准CFBenchmark的提出旨在建立一套全面的评价体系,以评估大模型在金融自然语言处理、金融场景计算、金融分析与解读以及金融合规与安全检查等多项关键任务中的表现。