LLMs for Finance模型语料语言语料领域语料详细信息语料（金融领域）下载地址任务场景开放API

图片.png

模型	语料语言	语料领域	语料详细信息	语料（金融领域）下载地址	任务场景	开放API						性能（金融领域）	模型大小	backbone结构	提出时间	模型下载地址	项目地址	作者	论文	备注
PIXIU	英文	金融	136K指令数据，包括5类任务、9个数据集。	github.com/chancefocus…	4 financial NLP tasks and 1 financial prediction task.							部分任务优于GPT-4，部分任务差于GPT-4	7B，30B	LLaMA 7B，LLaMA-30B	06/11/2023	huggingface.co/ChanceFocus…	github.com/chancefocus…	武汉大学、中山大学、西南交通大学、University of Florida	arxiv.org/abs/2306.05…	the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs.
			任务包括，金融情感分析、新闻标题分类、NER、QA、股价走势预测。									做stock movement prediction是通过prompt："Analyze the information and social media posts to determine if the closing price of {tid} will ascend or descend at {point}. Please respond with either Rise or Fall."应该不能zero-shot做样本外预测。				huggingface.co/ChanceFocus…
TigerBot	中文+英文	金融、法律、百科	预训练数据：	huggingface.co/datasets/Ti…	7 项英文 NLP 任务和 4 项中文 NLP 任务	Chat-API: www.tigerbot.com/api-referen…							7B, 180B	BLOOM	06/09/2023	huggingface.co/TigerResear… 等	github.com/TigerResear…	虎博科技 github.com/TigerResear…		多语言多任务LLM，开源了包括模型：TigerBot-7B, TigerBot-7B-base，TigerBot-180B，基本训练和推理代码，100G预训练数据，涵盖金融、法律、百科的领域数据以及API等。
			基于 GPT3 的 pretrain 的数据分布，采集中文书籍，互联网，和百科类数据，并通过数据源质量分过滤和 tf-idf soft deduping，从 20TB 数据过滤到 2TB，保持语言和类目的比例，并在此基础上随机抽样 100G 数据开源	huggingface.co/datasets/Ti…		Plug-ins：											www.tigerbot.com/
			微调数据：			www.tigerbot.com/api-referen…
			指令数据集, 当前开源 120W 问答对。
			领域数据：
			开放金融、法律、百科相关领域数据
Yayi	中文	媒体宣传、舆情分析、公共安全、金融风控、城市治理	Yayi是基于中科闻歌百万级高质量领域指令微调数据集训练的，作者在huggingface开源了5w 条训练数据集。数据集主要涵盖了金融、安全、舆情、媒体等几大领域，我们为各领域任务大部分指令数据添加了离散 prompt 前缀，以区分各领域数据。	huggingface.co/datasets/we…	对话（对话包括了问答）							主观题：评分1-5分，1非常差、2较差、3一般、4较好、5非常好；共3人评测，准确性平均分取3人平均分。	7B	huggingface.co/bigscience/…	06/04/2023	huggingface.co/wenge-resea…	github.com/wenge-resea…	中科闻歌 github.com/wenge-resea…		雅意在百万级人工构造的高质量领域数据上进行指令微调得到，
雅意												排名第1，优于ChatGPT、文心一言、星火、ChatGLM等。								训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域，上百种自然语言指令任务。
																				雅意大模型从预训练初始化权重到领域模型的迭代过程中，我们逐步增强了它的中文基础能力和领域分析能力，并增加了部分插件能力。
																				同时，经过数百名用户内测过程中持续不断的人工反馈优化，我们进一步提升了模型性能和安全性。
XuanYuan 2.0	中文	通用、金融	中文通用领域和金融领域, 13B tokens。		对话							1.涉及，金融名词理解、金融市场评论、金融数据分析、金融新闻理解，4个子领域	176B	BLOOM	05/19/2023	huggingface.co/xyz-nlp/Xua…	github.com/Duxiaoman-D…	github.com/Duxiaoman-D… 度小满	arxiv.org/abs/2305.12…	轩辕是国内首个开源的千亿级中文对话大模型，也是首个针对中文金融领域优化的千亿级开源对话大模型。
轩辕			论文："For unsupervised pre-training data, we crawl them from the Internet and clean and filter them. For Instruction-tuning data, we use human-written seed instructions to collect general data by Self- Instruct (Wang et al., 2022) and utilize unstructured and structured data in the financial field to gather domain-specific instruction data by Self-QA (Zhang and Yang, 2023). Unstructured financial data comprises a wide range of textual information, such as financial news articles, market reports, analyst commentary, and social media discussions. And structured financial data includes company information and so on"									2.与BLOOMChat, BLOOMZ(176B), ChatGLM-6B的比较中，轩辕赢得了150次回答中63.33%的胜率	7B	BLOOM						轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了预训练与微调
																				可以应对通用领域、或金融相关的各类问题
Cornucopia	中文	金融	公开和爬取的中文金融领域问答数据，涉及到保险、理财、股票、基金、贷款、信用卡、社保等。		问答							给出了2个demo例子。	7B	LLaMA	05/07/2023	LoRA权重下载地址 huggingface.co/yuyangmu125…	github.com/jerry1993-t…	中科信息 YangMu Yu github.com/jerry1993-t…		经过中文金融知识指令微调(Instruct-tuning) 的LLaMA-7B模型。
聚宝盆			14M指令数据，中文金融知识图谱，CFLEB金融数据集。									无评价指标。	7B	Chinese-LLaMA		和 huggingface.co/yuyangmu125…				通过中文金融公开数据+爬取的金融数据，构建指令数据集，提高了 LLaMA 在金融领域的问答效果。
FinGPT	中文+英文	金融	V3: 4个英文情感分析数据集。	github.com/AI4Finance-… 有描述V3的4个数据集的huggingface下载地址。	financial sentiment analysis	Weighted F1	BloombergGPT	ChatGLM2	ChatGLM2 (8-bit)	FinGPT v3	FinGPT v3 (8-bit)		V1: 6B	V1: ChatGLM	04/23/2023	V3: huggingface.co/oliverwang1… ，tutorial见 github.com/AI4Finance-…	github.com/AI4Finance-…	社区： github.com/AI4Finance-…	arxiv.org/pdf/2307.10…	该项目开源了多个金融大模型，包括ChatGLM-6B/ChatGLM2-6B+LoRA和LLaMA-7B+LoRA的金融大模型，收集了包括金融新闻、社交媒体、财报等中英文训练数据。
			FPB			FPB	0.511	0.381	0.398	0.795	0.778		V2: 7B	V2: LLaMA				一作：哥大Xiao-Yang Liu	2023-07-25显示under review	FinGPT基于现有LLM的data-centric方法，针对民主化、构建开源FinGPT。
			FiQA-SA	github.com/AI4Finance-… 有描述如何爬V1的数据集，需要自己爬。		FiQA-SA	0.751	0.79	0.801	0.806	0.801		V3: 6B	V3: ChatGLM2		V1:无。
			TFNS			TFNS	-	0.189	0.19	0.74	0.721
			NWGI			NWGI	-	0.449	0.452	0.578	0.578
			V1: 中文financial news Contents from 东方财富,按照收益率变化打上情感分析的标签，作为情感分析数据集。
ChatABC		金融										在农业银行科技问答场景进行了内部试点			03/31/2023			中国农业银行
小数
BloombergGPT	英文	金融	预训练数据：金融新闻、报告和分析、公司财报、经济数据、交易数据、通用文本数据		3种判别式任务、3种生成式任务								50B	BLOOM	03/30/2023	无	无	Bloomberg	arxiv.org/abs/2303.17…	A 50 billion parameter language model that is trained on a wide range of financial data. The 1st LLM specialized for the financial domain.
金融行业通用模型		金融										已被创新应用于客户服务、风险防控、运营管理等多个业务领域。			03/29/2023			中国工商银行，联合了鹏城实验室、清华大学、中国科学院、华为		基于昇腾AI
BBT-FinT5	中文	金融	一个包含有从4种异质性来源（公司公告2T，研究报告1T，财经新闻20G，社交媒体120G）获取的约300GB文本的大规模多样性语料库。	如需使用，请发送邮件至ypgeng@ssymmetry.com 标题为BBT-FinCorpus-{base or large}申请，内容中说明身份、所属机构和用途	两项语言生成任务和四项语言理解任务								200m, 1B	T5-v1.1	02/18/2023	github.com/ssymmetry/B…	github.com/ssymmetry/B…	复旦大学	arxiv.org/abs/2302.09…	中文金融领域开源语料库BBT-FinCorpus，中文金融领域知识增强型预训练语言模型BBT-FinT5，中文金融领域自然语言处理评测基准CFLEB。
Mengzi-BERT-fin	中文	金融	基于 Mengzi-BERT-base 在金融语料上训练。语料为20G financial news and research reports (网页爬取的金融新闻、公告、研报)。Masked language modeling(MLM), part-of-speech(POS) tagging and sentence order prediction(SOP) are used as training task.		金融领域的自然语言理解类任务								110m	Mengzi-BERT-base（与BERT结构相同）	10/13/2021	Pytorch	github.com/Langboat/Me…	Langboat澜舟科技 github.com/Langboat	arxiv.org/abs/2110.06…	孟子系列
																huggingface.co/Langboat/me…
																s.langboat.com/mengzibertb…
FinBERT	中文	金融	金融财经类新闻、研报/上市公司公告、金融类百科词条，共约30亿tokens。		4个金融NLP任务								110m	BERT类	12/03/2020	Pytorch	github.com/valuesimple…	熵简科技 github.com/valuesimple…		国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型
																drive.google.com/file/d/1qW1…
																pan.baidu.com/share/init?…
#ChatGPT在金融NLP任务上的表现
论文	地址	备注
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks	arxiv.org/abs/2305.05…	ChatGPT和GPT-4是zero-shot/few shot的。有的任务好于金融预训练模型，有的任务差于。
Zero is Not Hero Yet: Benchmarking Zero-Shot Performance of LLMs for Financial Tasks	arxiv.org/abs/2305.16…	ChatGPT都是zero-shot的。所有任务都差于金融预训练模型。
FinGPT: Open-Source Financial Large Language Mode	arxiv.org/pdf/2307.10…	FinGPT指基于现有LLM的data-centric方法，本文是针对民主化、构建开源FinGPT的tutorial。
#金融LLM Galleries
项目名	地址	备注
Awesome-Chinese-LLM	github.com/HqWu-HITCS/…	该仓库，整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。
Awesome Pretrained Chinese NLP Models	github.com/lonePatient…	该仓库为，Awesome Pretrained Chinese NLP Models，高质量中文预训练模型集合
open source ChatGPT and beyond	github.com/SunLemuria/…	Open efforts to implement ChatGPT-like models and beyond.
Awesome AI in Finance	github.com/georgezouq/…	A curated list of awesome LLMs & deep learning strategies & tools in financial market.