LLMs for Finance

1,357 阅读8分钟

图片.png

模型语料语言语料领域语料详细信息语料(金融领域)下载地址任务场景开放API性能(金融领域)模型大小backbone结构提出时间模型下载地址项目地址作者论文备注
PIXIU英文金融136K指令数据,包括5类任务、9个数据集。github.com/chancefocus…4 financial NLP tasks and 1 financial prediction task.部分任务优于GPT-4,部分任务差于GPT-47B,30BLLaMA 7B,LLaMA-30B06/11/2023huggingface.co/ChanceFocus…github.com/chancefocus…武汉大学、中山大学、西南交通大学、University of Floridaarxiv.org/abs/2306.05…the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs.
任务包括,金融情感分析、新闻标题分类、NER、QA、股价走势预测。做stock movement prediction是通过prompt:"Analyze the information and social media posts to determine if the closing price of {tid} will ascend or descend at {point}. Please respond with either Rise or Fall."应该不能zero-shot做样本外预测。huggingface.co/ChanceFocus…
TigerBot中文+英文金融、法律、百科预训练数据:huggingface.co/datasets/Ti…7 项英文 NLP 任务和 4 项中文 NLP 任务Chat-API: www.tigerbot.com/api-referen…7B, 180BBLOOM06/09/2023huggingface.co/TigerResear…github.com/TigerResear…虎博科技 github.com/TigerResear…多语言多任务LLM,开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
基于 GPT3 的 pretrain 的数据分布,采集中文书籍,互联网,和百科类数据,并通过数据源质量分过滤和 tf-idf soft deduping,从 20TB 数据过滤到 2TB,保持语言和类目的比例,并在此基础上随机抽样 100G 数据开源huggingface.co/datasets/Ti…Plug-ins:www.tigerbot.com/
微调数据:www.tigerbot.com/api-referen…
指令数据集, 当前开源 120W 问答对。
领域数据:
开放金融、法律、百科相关领域数据
Yayi中文媒体宣传、舆情分析、公共安全、金融风控、城市治理Yayi是基于中科闻歌百万级高质量领域指令微调数据集训练的,作者在huggingface开源了5w 条训练数据集。数据集主要涵盖了金融、安全、舆情、媒体等几大领域,我们为各领域任务大部分指令数据添加了离散 prompt 前缀,以区分各领域数据。huggingface.co/datasets/we…对话(对话包括了问答)主观题:评分1-5分,1非常差、2较差、3一般、4较好、5非常好;共3人评测,准确性平均分取3人平均分。7Bhuggingface.co/bigscience/…06/04/2023huggingface.co/wenge-resea…github.com/wenge-resea…中科闻歌 github.com/wenge-resea…雅意在百万级人工构造的高质量领域数据上进行指令微调得到,
雅意排名第1,优于ChatGPT、文心一言、星火、ChatGLM等。训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。
雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了部分插件能力。
同时,经过数百名用户内测过程中持续不断的人工反馈优化,我们进一步提升了模型性能和安全性。
XuanYuan 2.0中文通用、金融中文通用领域和金融领域, 13B tokens。对话1.涉及,金融名词理解、金融市场评论、金融数据分析、金融新闻理解,4个子领域176BBLOOM05/19/2023huggingface.co/xyz-nlp/Xua…github.com/Duxiaoman-D…github.com/Duxiaoman-D… 度小满arxiv.org/abs/2305.12…轩辕是国内首个开源的千亿级中文对话大模型,也是首个针对中文金融领域优化的千亿级开源对话大模型。
轩辕论文:"For unsupervised pre-training data, we crawl them from the Internet and clean and filter them. For Instruction-tuning data, we use human-written seed instructions to collect general data by Self- Instruct (Wang et al., 2022) and utilize unstructured and structured data in the financial field to gather domain-specific instruction data by Self-QA (Zhang and Yang, 2023). Unstructured financial data comprises a wide range of textual information, such as financial news articles, market reports, analyst commentary, and social media discussions. And structured financial data includes company information and so on"2.与BLOOMChat, BLOOMZ(176B), ChatGLM-6B的比较中,轩辕赢得了150次回答中63.33%的胜率7BBLOOM轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了预训练与微调
可以应对通用领域、或金融相关的各类问题
Cornucopia中文金融公开和爬取的中文金融领域问答数据,涉及到保险、理财、股票、基金、贷款、信用卡、社保等。问答给出了2个demo例子。7BLLaMA05/07/2023LoRA权重下载地址 huggingface.co/yuyangmu125…github.com/jerry1993-t…中科信息 YangMu Yu github.com/jerry1993-t…经过中文金融知识指令微调(Instruct-tuning) 的LLaMA-7B模型。
聚宝盆14M指令数据,中文金融知识图谱,CFLEB金融数据集。无评价指标。7BChinese-LLaMAhuggingface.co/yuyangmu125…通过中文金融公开数据+爬取的金融数据,构建指令数据集,提高了 LLaMA 在金融领域的问答效果。
FinGPT中文+英文金融V3: 4个英文情感分析数据集。github.com/AI4Finance-… 有描述V3的4个数据集的huggingface下载地址。financial sentiment analysisWeighted F1BloombergGPTChatGLM2ChatGLM2 (8-bit)FinGPT v3FinGPT v3 (8-bit)V1: 6BV1: ChatGLM04/23/2023V3: huggingface.co/oliverwang1… ,tutorial见 github.com/AI4Finance-…github.com/AI4Finance-…社区: github.com/AI4Finance-…arxiv.org/pdf/2307.10…该项目开源了多个金融大模型,包括ChatGLM-6B/ChatGLM2-6B+LoRA和LLaMA-7B+LoRA的金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。
FPBFPB0.5110.3810.3980.7950.778V2: 7BV2: LLaMA一作:哥大Xiao-Yang Liu2023-07-25显示under reviewFinGPT基于现有LLM的data-centric方法,针对民主化、构建开源FinGPT。
FiQA-SAgithub.com/AI4Finance-… 有描述如何爬V1的数据集,需要自己爬。FiQA-SA0.7510.790.8010.8060.801V3: 6BV3: ChatGLM2V1:无。
TFNSTFNS-0.1890.190.740.721
NWGINWGI-0.4490.4520.5780.578
V1: 中文financial news Contents from 东方财富,按照收益率变化打上情感分析的标签,作为情感分析数据集。
ChatABC金融在农业银行科技问答场景进行了内部试点03/31/2023中国农业银行
小数
BloombergGPT英文金融预训练数据:金融新闻、报告和分析、公司财报、经济数据、交易数据、通用文本数据3种判别式任务、3种生成式任务50BBLOOM03/30/2023Bloombergarxiv.org/abs/2303.17…A 50 billion parameter language model that is trained on a wide range of financial data. The 1st LLM specialized for the financial domain.
金融行业通用模型金融已被创新应用于客户服务、风险防控、运营管理等多个业务领域。03/29/2023中国工商银行,联合了鹏城实验室、清华大学、中国科学院、华为基于昇腾AI
BBT-FinT5中文金融一个包含有从4种异质性来源(公司公告2T,研究报告1T,财经新闻20G,社交媒体120G)获取的约300GB文本的大规模多样性语料库。如需使用,请发送邮件至ypgeng@ssymmetry.com 标题为BBT-FinCorpus-{base or large}申请,内容中说明身份、所属机构和用途两项语言生成任务和四项语言理解任务200m, 1BT5-v1.102/18/2023github.com/ssymmetry/B…github.com/ssymmetry/B…复旦大学arxiv.org/abs/2302.09…中文金融领域开源语料库BBT-FinCorpus,中文金融领域知识增强型预训练语言模型BBT-FinT5,中文金融领域自然语言处理评测基准CFLEB。
Mengzi-BERT-fin中文金融基于 Mengzi-BERT-base 在金融语料上训练。语料为20G financial news and research reports (网页爬取的金融新闻、公告、研报)。Masked language modeling(MLM), part-of-speech(POS) tagging and sentence order prediction(SOP) are used as training task.金融领域的自然语言理解类任务110mMengzi-BERT-base(与BERT结构相同)10/13/2021Pytorchgithub.com/Langboat/Me…Langboat澜舟科技 github.com/Langboatarxiv.org/abs/2110.06…孟子系列
huggingface.co/Langboat/me…
s.langboat.com/mengzibertb…
FinBERT中文金融金融财经类新闻、研报/上市公司公告、金融类百科词条,共约30亿tokens。4个金融NLP任务110mBERT类12/03/2020Pytorchgithub.com/valuesimple…熵简科技 github.com/valuesimple…国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型
drive.google.com/file/d/1qW1…
pan.baidu.com/share/init?…
#ChatGPT在金融NLP任务上的表现
论文地址备注
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasksarxiv.org/abs/2305.05…ChatGPT和GPT-4是zero-shot/few shot的。有的任务好于金融预训练模型,有的任务差于。
Zero is Not Hero Yet: Benchmarking Zero-Shot Performance of LLMs for Financial Tasksarxiv.org/abs/2305.16…ChatGPT都是zero-shot的。所有任务都差于金融预训练模型。
FinGPT: Open-Source Financial Large Language Modearxiv.org/pdf/2307.10…FinGPT指基于现有LLM的data-centric方法,本文是针对民主化、构建开源FinGPT的tutorial。
#金融LLM Galleries
项目名地址备注
Awesome-Chinese-LLMgithub.com/HqWu-HITCS/…该仓库,整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。
Awesome Pretrained Chinese NLP Modelsgithub.com/lonePatient…该仓库为,Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合
open source ChatGPT and beyondgithub.com/SunLemuria/…Open efforts to implement ChatGPT-like models and beyond.
Awesome AI in Financegithub.com/georgezouq/…A curated list of awesome LLMs & deep learning strategies & tools in financial market.