一、AI 大模型的崛起之势
过去几年,国内外的 AI 厂商均在大模型领域有所布局。OpenAI 在 2019 年发布了GPT-2 大模型,国内互联网科技厂商也集中在 2020-2022 三年期间相继发布了自己的大模型。ChatGPT 的发布,掀起一波发展热潮,原有厂商基于自身大模型开始推出一系列生成式 AI 应用,并对外提供 API 接口。更多的创业公司、科研机构和新的科技厂商涌入该市场,发布相关的产品服务。
下面是一些知名的国外玩家:
-
Open AI: GPT-4:
- 发布时间为 2023 年 3 月 14 日。
- 是千亿级参数的多模态预训练模型,能够支持图像和文本的输入。
-
Kakao: KoGPT:
- 发布时间为 2021 年。
- 专注于开发基于 AI 的图像创建技术和医疗保健技术。
-
LG AI Research: Exaone:
- 发布时间为 2022 年 12 月。
- 拥有 3000 亿参数,使用图像和文本数据的多模态模型,是目前韩国参数规模最大的模型,用于生物医药和智能制造行业。
-
Anthropic: Claude:
- 发布时间为 2023 年 3 月 14 日。
- 是 Anthropic 开发的类似 ChatGPT 的聊天机器人,使用的是 constitutional AI 的偏好模型。
-
Google: PaLM-E:
- 发布时间为 2023 年 3 月 10 日。
- 是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控机器人的视觉和语言能力。
-
Meta: SAM, LLaMA:
- 视觉模型 SAM 于 2023 年 4 月发布,通过精细标注,识别分割画面上的指定物体。
- 大型语言模型 LLaMA 于 2023 年推出。
-
Naver: HyperCLOVA:
- 与三星电子合作,于 2021 年 5 月发布。
- 超过 2000 亿个参数,是超大规模模型;97% 使用的是韩文语料,计划 23H1 基于大模型推出 Search GPT。
本土公司在人工智能领域的最新进展,分为互联网公司、科技公司、创业公司、硬件公司、实验室和高校六个类别。 在互联网公司类别中:
-
阿里巴巴:
- 通义大模型:最新进展是于 2023 年 4 月正式推出通义千问大模型。
-
华为:
- 盘古大模型:于 2021 年 4 月正式对外发布盘古预训练大模型。
-
腾讯:
- 混元大模型:于 2022 年 4 月首次对外披露混元大模型研发进展。
-
百度:
- 文心大模型:最新进展是于 2023 年 3 月正式发布文心一言大模型。
-
快手:
- K7 大模型:百亿级多模态内容理解大模型,高效视频相似度计算。
在科技公司类别中:
-
商汤:
- 日日新 SenseNova 大模型体系:提供自然语言、内容生成、自动化数据标注、自定义模型训练等大模型及一系列生成式 AI 应用。
-
昆仑万维:
- 昆仑天工大模型:于 2023 年 4 月 17 日正式发布千亿级语言模型 “天工”。
-
科大讯飞:
- 1+N 认知智能大模型:将于 2023 年 5 月 6 日正式发布。
在创业公司类别中:
-
王慧文创立光年之外:
- 前美团员工创立 MiniMax。
-
杨植麟创立循环智能:
- 周伯文创立衔远科技。
-
唐杰创立智谱 AI:
- 现为 CTO。
-
蓝振忠创立西湖心辰:
- 创业黑马子公司数智云科与达摩院签订战略合作协议,致力于打造对标 ChatGPT 的中国本土化大模型。
在硬件公司类别中:
-
澜起科技:
- 浪潮信息:源 1.0 大模型,于 2021 年 9 月 28 日发布,具有 2457 亿参数,是中文语料 AI 模型。
-
英伟达:
- 实:于 2023 年 3 月 14 日正式发布了 “类 ChatGPT” 的语言生成模型 —— 孟子 Mchat 可控大模型。
在实验室类别中:
- 智源研究院:
在高校类别中:
- 北京大学:
大模型人气高涨,吸引了用户的关注,不仅是 CIO、CTO 等技术决策人员,CEO、CFO 等业务决策人员也同样希望发挥此类模型在业务用例中的潜力。用户关注度的跃升成为对厂商自身能力的考验,前期已具备全栈大模型构建能力的厂商开始显现积累优势。
二、大模型架构解析
(一)技术基础与特点
技术基础
-
预训练技术
- 无监督学习:大模型通常在大规模无标注数据上进行预训练,例如文本、图像等。通过无监督学习算法(如自监督学习),模型可以学习到数据中的内在结构和特征。
- 迁移学习:预训练好的模型可以在特定任务上进行微调(fine-tuning),通过在小量有标注数据上进行训练,模型可以快速适应新的任务,减少对大量标注数据的依赖。
-
深度学习架构
- Transformer 架构:目前许多大模型都基于 Transformer 架构,其具有自注意力机制(self - attention mechanism),能够有效处理长序列数据,并行计算能力强,适合处理自然语言和图像等数据。
- 多层感知机(MLP) :一些大模型也会结合多层感知机架构,特别是在视觉领域,如 Vision Transformer(ViT)在图像分类任务中取得了很好的效果。
-
大规模数据处理
- 数据清洗与标注:大模型需要处理海量数据,因此数据的清洗和标注是重要的前期工作。高质量的数据可以提高模型的性能。
- 分布式训练:为了处理大规模数据和复杂模型,通常采用分布式训练技术,如数据并行和模型并行,利用多台计算设备(如 GPU 集群)加速训练过程。
特点
-
参数规模巨大
- 大模型通常具有数十亿甚至数千亿的参数,例如 OpenAI 的 GPT - 3 有 1750 亿参数,Google 的 PaLM 有 5400 亿参数。大量的参数使得模型能够学习到更复杂的模式和特征。
-
多模态融合
- 一些先进的大模型可以处理多种模态的数据,如文本、图像、音频等。通过多模态融合,模型可以综合不同类型的信息,提高对世界的理解和推理能力。
-
泛化能力强
- 由于在大规模数据上进行预训练,大模型具有很强的泛化能力,能够在不同的任务和领域中取得较好的表现,减少对特定任务数据的依赖。
-
生成能力
- 大模型在生成任务上表现出色,如文本生成、图像生成等。通过对数据分布的学习,模型可以生成高质量、连贯的内容。
-
计算资源需求高
- 训练和运行大模型需要大量的计算资源,包括高性能的 GPU、TPU 等硬件设备,以及大规模的存储和网络带宽。
大模型架构通过先进的预训练技术和深度学习架构,结合大规模数据处理,展现出参数规模大、多模态融合、泛化能力强、生成能力好等特点,但也对计算资源提出了很高的要求。
(二)主流架构类型
商汤:SenseCore 商汤 AI 大装置 + 商汤日日新 SenseNova大模型体系
商汤大模型产业布局与应用场景积累
商汤大模型的体系化研发能力
百度:AI 大底座+文心大模型
百度文心大模型源于产业、服务于产业,是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用门槛。文心大模型一大特色是“知识增强”,百度自研的多源异构知识图谱拥有超过 5,500 亿条知识,被融入到文心大模型的预训练中。文心大模型凭借海量数据和大规模知识的融合学习,能实现更高的效率、更好的效果、更强的可解释性。
文心大模型与飞桨深度学习平台的关系
区助力大模型的高效应用。飞桨深度学习平台能助力解决大模型研发和部署的各类问题,大模型使得 AI 模型的研发门槛更低、效果更好、流程更加标准化,硬件厂商、开发者以及模型应用企业在文心+飞桨生态中,紧密链接、相互促进,形成共聚、共研、共创的健康生态。
阿里:M6-OFA +“通义”大模型系列
阿里巴巴通义大模型以统一底座为基础,构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。通用与专业领域大小模型协同,让通义大模型系列可兼顾性能最优化与低成本落地。
华为:ModelArts + 盘古大模型
华为云于 2020 年内部立项 AI 大模型,并于 2021 年 4 月正式对外发布盘古预训练大模型,强调模型数据、网络结构、泛化能力三大核心设计。华为云规划“L0 基础大模型-L1 行业大模型-L2 细分场景大模型”的发展路径。L0 阶段的盘古大模型由 NLP 大模型,CV 大模型、语音大模型、多模态大模型、科学计算大模型等组成,其中 CV 大模型超 30 亿参数,预训练时输入 10 亿级图像数据,兼顾图像判别与生成能力;NLP 大模型具备领先的中文语言理解和模型生成能力。L1 阶段,基于已有的行业基础,华为云推出盘古气象大模型、盘古矿山大模型、盘古 OCR大模型等行业大模型,能够在 L2 阶段的煤矿场景下的瓦斯浓度的超前预警、气象领域的天气预报等多个细分场景实现落地。
华为云聚焦全栈式 AI 解决方案,大模型与昇腾 ( Ascend ) / 鲲 鹏 芯 片 、 昇 思(MindSpore)语言、ModelArts 平台深度结合,以算力底座、服务器、全场景深度学习框架及开发平台共同助力大模型发展。
腾讯:HCC 高性能计算集群+混元大模型
2022 年 4 月,腾讯首次对外披露混元 AI大模型,协同了腾讯预训练研发力量,以统一的平台实现技术复用和业务降本,支持更多的场景和应用。当前,混元 AI 大模型完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业与领域任务模型 , 先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。目前,HunYuan NLP 1T 大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。近日腾讯正式发布全新的 AI 智能创作助手“腾讯智影”,推出了智影数字人、文本配音、文章转视频等 AI 创作工具。 腾讯 HunYuan 大模型全景图
三、大模型应用场景探索
一、自然语言处理领域
-
智能客服
- 可以快速准确地理解客户的问题,并给出恰当的回答。无论是常见问题解答,还是复杂的技术咨询,大模型都能高效应对。
- 通过不断学习客户的反馈和新的问题类型,持续提升服务质量。
-
机器翻译
- 能够实现高精度的翻译,不仅在词汇层面准确转换,还能在语法和语义层面进行优化,使翻译结果更加自然流畅。
- 支持多种语言之间的互译,为跨国交流和国际贸易提供便利。
-
文本生成
- 例如新闻稿件的自动生成,根据给定的主题和关键信息,快速生成一篇结构完整、语言通顺的新闻报道。
- 创意写作辅助,为作家提供灵感,生成故事梗概、人物描述等。
二、医疗领域
-
医疗诊断辅助
- 分析患者的病历、症状和检查结果,为医生提供诊断建议和可能的疾病范围。
- 帮助医生快速准确地做出决策,提高诊断效率和准确性。
-
医学研究
- 对大量的医学文献进行分析和总结,提取关键信息,为科研人员提供研究思路和方向。
- 加速药物研发过程,通过预测药物的疗效和副作用,提高研发成功率。
三、金融领域
-
风险评估
- 分析大量的金融数据,评估投资风险、信用风险等,为金融机构提供决策依据。
- 预测市场趋势,帮助投资者制定合理的投资策略。
-
智能投顾
- 根据客户的风险偏好、财务状况等因素,为客户提供个性化的投资建议。
- 实时监控市场变化,调整投资组合,实现资产的优化配置。
四、教育领域
-
智能辅导
- 解答学生的问题,提供个性化的学习建议和辅导。
- 自动批改作业和试卷,减轻教师的工作负担。
-
在线教育
- 为在线课程提供智能助教,与学生互动,提高学习效果。
- 生成教学内容,如教案、课件等,丰富教学资源。
五、工业领域
-
智能制造
- 优化生产流程,提高生产效率和产品质量。
- 预测设备故障,提前进行维护,减少停机时间。
-
供应链管理
- 分析市场需求和供应情况,优化库存管理,降低成本。
- 预测物流运输时间,提高物流效率。
大模型在各个领域都有着广阔的应用前景,随着技术的不断发展和完善,其应用场景还将不断拓展和深化。
四、应用的成功案例
-
金融领域:
- 浦发银行:利用大模型重塑零售业务场景,在智能客服、智能营销、智能风控等方面取得了良好的应用效果。例如,通过对客户的行为数据和交易数据进行分析,大模型可以为客户提供个性化的金融产品推荐和服务,提高客户的满意度和忠诚度。
- 网商银行:将 AI 大模型的能力应用于产业链金融,通过对产业链上的企业数据进行分析,为企业提供更加精准的融资服务和风险管理方案,帮助企业解决融资难、融资贵的问题。
- 阳光保险:自研阳光正言 GPT 大模型,构建保险大模型的评测体系和方法。在保险销售、核保、理赔、服务等多个环节实现了智能化应用,提高了保险业务的效率和质量,降低了运营成本。例如,在理赔环节,大模型可以快速识别理赔案件的风险,提高理赔的准确性和效率。
-
医疗领域:
- 上海交通大学医学院附属新华医院:与商汤科技合作建设智慧就医服务平台。该平台基于商汤科技研发的医疗健康大语言模型 “大医” 赋能,实现智能导诊功能,通过多轮问答快速为患者推荐对应就诊科室,并在患者排队等候期间借助智能问答系统提前收集患者病情信息,实现高精度预问诊。同时,平台基于数字孪生和元宇宙技术推出 AR 导航功能,为患者推送实时定位、诊室位置等信息,大幅缩短患者在院停留时间8。
- 零一万物助力医学问答产品 “小胰宝” :“小胰宝” 是一个以胰腺癌知识为核心的问答工具,在大模型公司零一万物运营开源生态团队的帮助下,利用大模型技术对其进行改进和优化,提高了问答的准确性和效率,为胰腺癌患者提供了更好的医疗知识服务2。
-
教育领域:
- 网易有道 “子曰” 教育大模型:推出了 “LLM 翻译”“虚拟人口语教练”“AI 作文指导”“语法精讲”“AIBox” 以及 “文档问答” 六大创新应用。其中,虚拟人口语私教上线后用户数量激增,有道词典笔 X6Pro 首发当日销量即突破 40000 台,开学季销售额突破 1 亿。“子曰” 教育大模型还通过了双新评估,成为首批通过完整国家备案的教育大模型。
-
工业领域:
- 羚羊工业大模型:入选《哈佛商业评论》案例库,是科大讯飞认知大模型 “1+N” 专项攻关计划在工业领域的落地成果。该模型覆盖了 41 个全部工业大类的专业知识,并深耕高端装备、汽车、船舶、机床、能源、新能源石油石化等细分行业领域的专业知识。在实际应用中,羚羊工业大模型可以帮助用户快速获取企业数据资产、分析数据、生成数据分析报告,还可以为企业量身定制智能制造运营管理系统,提供 “大模型 + 智能业务助手”“大模型 + 生成式 AI 开发平台”“大模型 + 工业机器人” 等综合解决方案。
- 长城汽车和毫末智行的 DriveGPT 雪湖・海若:这是自动驾驶生成式大模型,通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,主要用于解决自动驾驶的认知决策问题。该模型可以提供问题场景的快速发现、场景数据的快速筛选与自动标注、罕见场景的数据生成以及云端仿真测评等能力,有效节省了标注成本,提高了自动驾驶的安全性和可靠性7。
-
智能客服领域:
- 度小满 “轩辕” 大模型:应用在度小满的客服领域,推动服务效率提升了 25%。该模型用度小满实际业务场景积累的海量金融数据训练而来,在大大增强金融能力的同时,不损失通用能力。
-
文创领域:
- 商汤科技在《三体・引力之外》的应用:商汤科技通过大模型的能力为《三体・引力之外》沉浸式科幻体验空间创作并展现极具未来感的科幻航程,突破了想象力的边界6。
五、大模型训练及推理【硬件选型指南】及 GPU 通识
我们在做大模型应用部署时(如训练、微调、RAG),往往需要在前期就分析好硬件选型指标,或者我们给客户报方案之前,可能你已经有了一个方案,但是由于实践经验缺乏,不知道在硬件上该如何评估并上报。本文将在这些方面给予一些参照。
硬件选型
当我们为模型训练及推理做硬件选型时,NVIDIA 几乎是唯一选择。这是一家全球知名的图形处理器(GPU)公司,成立于 1993 年。因为在 GPU 领域,尤其 AI 领域芯片的垄断性优势,其创始人黄仁勋被坊间称为「黄教主」
AI 领域常用 GPU
| GPU 型号 | 价格范围 | 特点 |
|---|---|---|
| NVIDIA T4 | 几千元人民币 | 适合日常模型微调和推理等任务,性价比高的入门级 GPU |
| NVIDIA A10 | 数千元到一万元左右 | 适用于对性能有一定要求的中小规模 AI 任务 |
| NVIDIA A40 | 一万元到数万元之间 | 性能和价格处于中等水平,可用于多种 AI 工作负载 |
| NVIDIA A6000 | 数万元 | 具备强大计算能力和大显存,适用于大型 AI 训练和复杂计算任务 |
| NVIDIA A800 | 数万元到十多万元不等 | NVIDIA 针对中国市场推出,性能较强 |
| NVIDIA H800 | 十万元以上 | 高性能 AI 加速卡 |
| NVIDIA A100 | 禁售前数万元甚至更高 | 曾经的顶级 GPU 之一,训练和推理表现出色 |
| NVIDIA H100 | 数十万元 | 目前最强大的 AI GPU,性能卓越,用于大规模 AI 训练和高性能计算 |
不同情况推荐
- 对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
- 对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
- 数据规模小时,可考虑预算内的 A10 或 T4 型号。
- 如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
大模型内存选择
大模型训练需要高性能的计算机硬件来保证训练的效率和速度。建议选择具有高速的ECC或DDR5内存。现在训练时一般在 GLM 、 LLaMA 等大模型的基础上进行训练,国内会选择 A800/H800 x 8 的 GPU 配置,与此同时内存一般会选择相似大小以提升效率,常规选择 512 内存。
大模型所需磁盘
大模型训练需要存储大规模的数据集和模型参数,因此需要足够的存储资源来保证数据能够快速地被读取和处理。建议选择具有大容量、高速的存储设备,如 SSD 或 NVMe 固态硬盘。一般 4T-8T 不等。
推荐配置参考
GPU算力平台:大模型训练、自动驾驶、深度学习解决方案。
A100/A800大模型训练配置分享
平台:SYS-420GP-TNAR(4U)
CPU:2*8358(32核心,铂金版,2.6GHz 超频 3.4GHz)
GPU:NVIDIA HGX A100/A800(80G SXM)
内存:32*64GB DDR4
H100/H800大模型训练配置分享
平台:SYS-821GE-TNHR(8U)
CPU:2*8468(48核心,铂金版,2.1GHz 超频 3.8GHz)
GPU:NVIDIA HGX H100/H800(80G SXM5)
内存:32*64GB DDR5
六、大模型未来展望
总之,大模型在未来有着巨大的发展潜力,将对各个领域产生深远的影响。我们需要积极应对其带来的挑战,充分发挥其优势,推动社会的可持续发展。