国内主流AI 大模型架构及应用场景深度分析

1,402 阅读20分钟

一、AI 大模型的崛起之势

过去几年,国内外的 AI 厂商均在大模型领域有所布局。OpenAI 在 2019 年发布了GPT-2 大模型,国内互联网科技厂商也集中在 2020-2022 三年期间相继发布了自己的大模型。ChatGPT 的发布,掀起一波发展热潮,原有厂商基于自身大模型开始推出一系列生成式 AI 应用,并对外提供 API 接口。更多的创业公司、科研机构和新的科技厂商涌入该市场,发布相关的产品服务。

下面是一些知名的国外玩家:

  1. Open AI: GPT-4

    • 发布时间为 2023 年 3 月 14 日。
    • 是千亿级参数的多模态预训练模型,能够支持图像和文本的输入。
  2. Kakao: KoGPT

    • 发布时间为 2021 年。
    • 专注于开发基于 AI 的图像创建技术和医疗保健技术。
  3. LG AI Research: Exaone

    • 发布时间为 2022 年 12 月。
    • 拥有 3000 亿参数,使用图像和文本数据的多模态模型,是目前韩国参数规模最大的模型,用于生物医药和智能制造行业。
  4. Anthropic: Claude

    • 发布时间为 2023 年 3 月 14 日。
    • 是 Anthropic 开发的类似 ChatGPT 的聊天机器人,使用的是 constitutional AI 的偏好模型。
  5. Google: PaLM-E

    • 发布时间为 2023 年 3 月 10 日。
    • 是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控机器人的视觉和语言能力。
  6. Meta: SAM, LLaMA

    • 视觉模型 SAM 于 2023 年 4 月发布,通过精细标注,识别分割画面上的指定物体。
    • 大型语言模型 LLaMA 于 2023 年推出。
  7. Naver: HyperCLOVA

    • 与三星电子合作,于 2021 年 5 月发布。
    • 超过 2000 亿个参数,是超大规模模型;97% 使用的是韩文语料,计划 23H1 基于大模型推出 Search GPT。

本土公司在人工智能领域的最新进展,分为互联网公司、科技公司、创业公司、硬件公司、实验室和高校六个类别。 在互联网公司类别中:

  1. 阿里巴巴

    • 通义大模型:最新进展是于 2023 年 4 月正式推出通义千问大模型。
  2. 华为

    • 盘古大模型:于 2021 年 4 月正式对外发布盘古预训练大模型。
  3. 腾讯

    • 混元大模型:于 2022 年 4 月首次对外披露混元大模型研发进展。
  4. 百度

    • 文心大模型:最新进展是于 2023 年 3 月正式发布文心一言大模型。
  5. 快手

    • K7 大模型:百亿级多模态内容理解大模型,高效视频相似度计算。

在科技公司类别中:

  1. 商汤

    • 日日新 SenseNova 大模型体系:提供自然语言、内容生成、自动化数据标注、自定义模型训练等大模型及一系列生成式 AI 应用。
  2. 昆仑万维

    • 昆仑天工大模型:于 2023 年 4 月 17 日正式发布千亿级语言模型 “天工”。
  3. 科大讯飞

    • 1+N 认知智能大模型:将于 2023 年 5 月 6 日正式发布。

在创业公司类别中:

  1. 王慧文创立光年之外

    • 前美团员工创立 MiniMax。
  2. 杨植麟创立循环智能

    • 周伯文创立衔远科技。
  3. 唐杰创立智谱 AI

    • 现为 CTO。
  4. 蓝振忠创立西湖心辰

    • 创业黑马子公司数智云科与达摩院签订战略合作协议,致力于打造对标 ChatGPT 的中国本土化大模型。

在硬件公司类别中:

  1. 澜起科技

    • 浪潮信息:源 1.0 大模型,于 2021 年 9 月 28 日发布,具有 2457 亿参数,是中文语料 AI 模型。
  2. 英伟达

    • 实:于 2023 年 3 月 14 日正式发布了 “类 ChatGPT” 的语言生成模型 —— 孟子 Mchat 可控大模型。

在实验室类别中:

  1. 智源研究院

在高校类别中:

  1. 北京大学

大模型人气高涨,吸引了用户的关注,不仅是 CIO、CTO 等技术决策人员,CEO、CFO 等业务决策人员也同样希望发挥此类模型在业务用例中的潜力。用户关注度的跃升成为对厂商自身能力的考验,前期已具备全栈大模型构建能力的厂商开始显现积累优势。

二、大模型架构解析

(一)技术基础与特点

技术基础
  1. 预训练技术

    • 无监督学习:大模型通常在大规模无标注数据上进行预训练,例如文本、图像等。通过无监督学习算法(如自监督学习),模型可以学习到数据中的内在结构和特征。
    • 迁移学习:预训练好的模型可以在特定任务上进行微调(fine-tuning),通过在小量有标注数据上进行训练,模型可以快速适应新的任务,减少对大量标注数据的依赖。
  2. 深度学习架构

    • Transformer 架构:目前许多大模型都基于 Transformer 架构,其具有自注意力机制(self - attention mechanism),能够有效处理长序列数据,并行计算能力强,适合处理自然语言和图像等数据。
    • 多层感知机(MLP) :一些大模型也会结合多层感知机架构,特别是在视觉领域,如 Vision Transformer(ViT)在图像分类任务中取得了很好的效果。
  3. 大规模数据处理

    • 数据清洗与标注:大模型需要处理海量数据,因此数据的清洗和标注是重要的前期工作。高质量的数据可以提高模型的性能。
    • 分布式训练:为了处理大规模数据和复杂模型,通常采用分布式训练技术,如数据并行和模型并行,利用多台计算设备(如 GPU 集群)加速训练过程。
特点
  1. 参数规模巨大

    • 大模型通常具有数十亿甚至数千亿的参数,例如 OpenAI 的 GPT - 3 有 1750 亿参数,Google 的 PaLM 有 5400 亿参数。大量的参数使得模型能够学习到更复杂的模式和特征。
  2. 多模态融合

    • 一些先进的大模型可以处理多种模态的数据,如文本、图像、音频等。通过多模态融合,模型可以综合不同类型的信息,提高对世界的理解和推理能力。
  3. 泛化能力强

    • 由于在大规模数据上进行预训练,大模型具有很强的泛化能力,能够在不同的任务和领域中取得较好的表现,减少对特定任务数据的依赖。
  4. 生成能力

    • 大模型在生成任务上表现出色,如文本生成、图像生成等。通过对数据分布的学习,模型可以生成高质量、连贯的内容。
  5. 计算资源需求高

    • 训练和运行大模型需要大量的计算资源,包括高性能的 GPU、TPU 等硬件设备,以及大规模的存储和网络带宽。

大模型架构通过先进的预训练技术和深度学习架构,结合大规模数据处理,展现出参数规模大、多模态融合、泛化能力强、生成能力好等特点,但也对计算资源提出了很高的要求。

(二)主流架构类型

商汤:SenseCore 商汤 AI 大装置 + 商汤日日新 SenseNova大模型体系

image.png 商汤大模型产业布局与应用场景积累

image.png 商汤大模型的体系化研发能力

image.png

百度:AI 大底座+文心大模型

百度文心大模型源于产业、服务于产业,是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用门槛。文心大模型一大特色是“知识增强”,百度自研的多源异构知识图谱拥有超过 5,500 亿条知识,被融入到文心大模型的预训练中。文心大模型凭借海量数据和大规模知识的融合学习,能实现更高的效率、更好的效果、更强的可解释性。

image.png 文心大模型与飞桨深度学习平台的关系

image.png 区助力大模型的高效应用。飞桨深度学习平台能助力解决大模型研发和部署的各类问题,大模型使得 AI 模型的研发门槛更低、效果更好、流程更加标准化,硬件厂商、开发者以及模型应用企业在文心+飞桨生态中,紧密链接、相互促进,形成共聚、共研、共创的健康生态。

阿里:M6-OFA +“通义”大模型系列

阿里巴巴通义大模型以统一底座为基础,构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。通用与专业领域大小模型协同,让通义大模型系列可兼顾性能最优化与低成本落地。

image.png

华为:ModelArts + 盘古大模型

华为云于 2020 年内部立项 AI 大模型,并于 2021 年 4 月正式对外发布盘古预训练大模型,强调模型数据、网络结构、泛化能力三大核心设计。华为云规划“L0 基础大模型-L1 行业大模型-L2 细分场景大模型”的发展路径。L0 阶段的盘古大模型由 NLP 大模型,CV 大模型、语音大模型、多模态大模型、科学计算大模型等组成,其中 CV 大模型超 30 亿参数,预训练时输入 10 亿级图像数据,兼顾图像判别与生成能力;NLP 大模型具备领先的中文语言理解和模型生成能力。L1 阶段,基于已有的行业基础,华为云推出盘古气象大模型、盘古矿山大模型、盘古 OCR大模型等行业大模型,能够在 L2 阶段的煤矿场景下的瓦斯浓度的超前预警、气象领域的天气预报等多个细分场景实现落地。

华为云聚焦全栈式 AI 解决方案,大模型与昇腾 ( Ascend ) / 鲲 鹏 芯 片 、 昇 思(MindSpore)语言、ModelArts 平台深度结合,以算力底座、服务器、全场景深度学习框架及开发平台共同助力大模型发展。

image.png

腾讯:HCC 高性能计算集群+混元大模型

2022 年 4 月,腾讯首次对外披露混元 AI大模型,协同了腾讯预训练研发力量,以统一的平台实现技术复用和业务降本,支持更多的场景和应用。当前,混元 AI 大模型完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业与领域任务模型 , 先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。目前,HunYuan NLP 1T 大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。近日腾讯正式发布全新的 AI 智能创作助手“腾讯智影”,推出了智影数字人、文本配音、文章转视频等 AI 创作工具。 腾讯 HunYuan 大模型全景图

image.png

三、大模型应用场景探索

一、自然语言处理领域

  1. 智能客服

    • 可以快速准确地理解客户的问题,并给出恰当的回答。无论是常见问题解答,还是复杂的技术咨询,大模型都能高效应对。
    • 通过不断学习客户的反馈和新的问题类型,持续提升服务质量。
  2. 机器翻译

    • 能够实现高精度的翻译,不仅在词汇层面准确转换,还能在语法和语义层面进行优化,使翻译结果更加自然流畅。
    • 支持多种语言之间的互译,为跨国交流和国际贸易提供便利。
  3. 文本生成

    • 例如新闻稿件的自动生成,根据给定的主题和关键信息,快速生成一篇结构完整、语言通顺的新闻报道。
    • 创意写作辅助,为作家提供灵感,生成故事梗概、人物描述等。

二、医疗领域

  1. 医疗诊断辅助

    • 分析患者的病历、症状和检查结果,为医生提供诊断建议和可能的疾病范围。
    • 帮助医生快速准确地做出决策,提高诊断效率和准确性。
  2. 医学研究

    • 对大量的医学文献进行分析和总结,提取关键信息,为科研人员提供研究思路和方向。
    • 加速药物研发过程,通过预测药物的疗效和副作用,提高研发成功率。

三、金融领域

  1. 风险评估

    • 分析大量的金融数据,评估投资风险、信用风险等,为金融机构提供决策依据。
    • 预测市场趋势,帮助投资者制定合理的投资策略。
  2. 智能投顾

    • 根据客户的风险偏好、财务状况等因素,为客户提供个性化的投资建议。
    • 实时监控市场变化,调整投资组合,实现资产的优化配置。

四、教育领域

  1. 智能辅导

    • 解答学生的问题,提供个性化的学习建议和辅导。
    • 自动批改作业和试卷,减轻教师的工作负担。
  2. 在线教育

    • 为在线课程提供智能助教,与学生互动,提高学习效果。
    • 生成教学内容,如教案、课件等,丰富教学资源。

五、工业领域

  1. 智能制造

    • 优化生产流程,提高生产效率和产品质量。
    • 预测设备故障,提前进行维护,减少停机时间。
  2. 供应链管理

    • 分析市场需求和供应情况,优化库存管理,降低成本。
    • 预测物流运输时间,提高物流效率。

大模型在各个领域都有着广阔的应用前景,随着技术的不断发展和完善,其应用场景还将不断拓展和深化。

四、应用的成功案例

  1. 金融领域

    • 浦发银行:利用大模型重塑零售业务场景,在智能客服、智能营销、智能风控等方面取得了良好的应用效果。例如,通过对客户的行为数据和交易数据进行分析,大模型可以为客户提供个性化的金融产品推荐和服务,提高客户的满意度和忠诚度。
    • 网商银行:将 AI 大模型的能力应用于产业链金融,通过对产业链上的企业数据进行分析,为企业提供更加精准的融资服务和风险管理方案,帮助企业解决融资难、融资贵的问题。
    • 阳光保险:自研阳光正言 GPT 大模型,构建保险大模型的评测体系和方法。在保险销售、核保、理赔、服务等多个环节实现了智能化应用,提高了保险业务的效率和质量,降低了运营成本。例如,在理赔环节,大模型可以快速识别理赔案件的风险,提高理赔的准确性和效率。
  2. 医疗领域

    • 上海交通大学医学院附属新华医院:与商汤科技合作建设智慧就医服务平台。该平台基于商汤科技研发的医疗健康大语言模型 “大医” 赋能,实现智能导诊功能,通过多轮问答快速为患者推荐对应就诊科室,并在患者排队等候期间借助智能问答系统提前收集患者病情信息,实现高精度预问诊。同时,平台基于数字孪生和元宇宙技术推出 AR 导航功能,为患者推送实时定位、诊室位置等信息,大幅缩短患者在院停留时间8。
    • 零一万物助力医学问答产品 “小胰宝” :“小胰宝” 是一个以胰腺癌知识为核心的问答工具,在大模型公司零一万物运营开源生态团队的帮助下,利用大模型技术对其进行改进和优化,提高了问答的准确性和效率,为胰腺癌患者提供了更好的医疗知识服务2。
  3. 教育领域

    • 网易有道 “子曰” 教育大模型:推出了 “LLM 翻译”“虚拟人口语教练”“AI 作文指导”“语法精讲”“AIBox” 以及 “文档问答” 六大创新应用。其中,虚拟人口语私教上线后用户数量激增,有道词典笔 X6Pro 首发当日销量即突破 40000 台,开学季销售额突破 1 亿。“子曰” 教育大模型还通过了双新评估,成为首批通过完整国家备案的教育大模型。
  4. 工业领域

    • 羚羊工业大模型:入选《哈佛商业评论》案例库,是科大讯飞认知大模型 “1+N” 专项攻关计划在工业领域的落地成果。该模型覆盖了 41 个全部工业大类的专业知识,并深耕高端装备、汽车、船舶、机床、能源、新能源石油石化等细分行业领域的专业知识。在实际应用中,羚羊工业大模型可以帮助用户快速获取企业数据资产、分析数据、生成数据分析报告,还可以为企业量身定制智能制造运营管理系统,提供 “大模型 + 智能业务助手”“大模型 + 生成式 AI 开发平台”“大模型 + 工业机器人” 等综合解决方案。
    • 长城汽车和毫末智行的 DriveGPT 雪湖・海若:这是自动驾驶生成式大模型,通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,主要用于解决自动驾驶的认知决策问题。该模型可以提供问题场景的快速发现、场景数据的快速筛选与自动标注、罕见场景的数据生成以及云端仿真测评等能力,有效节省了标注成本,提高了自动驾驶的安全性和可靠性7。
  5. 智能客服领域

    • 度小满 “轩辕” 大模型:应用在度小满的客服领域,推动服务效率提升了 25%。该模型用度小满实际业务场景积累的海量金融数据训练而来,在大大增强金融能力的同时,不损失通用能力。
  6. 文创领域

    • 商汤科技在《三体・引力之外》的应用:商汤科技通过大模型的能力为《三体・引力之外》沉浸式科幻体验空间创作并展现极具未来感的科幻航程,突破了想象力的边界6。

五、大模型训练及推理【硬件选型指南】及 GPU 通识

我们在做大模型应用部署时(如训练、微调、RAG),往往需要在前期就分析好硬件选型指标,或者我们给客户报方案之前,可能你已经有了一个方案,但是由于实践经验缺乏,不知道在硬件上该如何评估并上报。本文将在这些方面给予一些参照。

硬件选型

当我们为模型训练及推理做硬件选型时,NVIDIA 几乎是唯一选择。这是一家全球知名的图形处理器(GPU)公司,成立于 1993 年。因为在 GPU 领域,尤其 AI 领域芯片的垄断性优势,其创始人黄仁勋被坊间称为「黄教主」

AI 领域常用 GPU

GPU 型号价格范围特点
NVIDIA T4几千元人民币适合日常模型微调和推理等任务,性价比高的入门级 GPU
NVIDIA A10数千元到一万元左右适用于对性能有一定要求的中小规模 AI 任务
NVIDIA A40一万元到数万元之间性能和价格处于中等水平,可用于多种 AI 工作负载
NVIDIA A6000数万元具备强大计算能力和大显存,适用于大型 AI 训练和复杂计算任务
NVIDIA A800数万元到十多万元不等NVIDIA 针对中国市场推出,性能较强
NVIDIA H800十万元以上高性能 AI 加速卡
NVIDIA A100禁售前数万元甚至更高曾经的顶级 GPU 之一,训练和推理表现出色
NVIDIA H100数十万元目前最强大的 AI GPU,性能卓越,用于大规模 AI 训练和高性能计算

不同情况推荐

  1. 对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
  2. 对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
  3. 数据规模小时,可考虑预算内的 A10 或 T4 型号。
  4. 如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务

大模型内存选择

大模型训练需要高性能的计算机硬件来保证训练的效率和速度。建议选择具有高速的ECC或DDR5内存。现在训练时一般在 GLM 、 LLaMA 等大模型的基础上进行训练,国内会选择 A800/H800 x 8 的 GPU 配置,与此同时内存一般会选择相似大小以提升效率,常规选择 512 内存。

大模型所需磁盘

大模型训练需要存储大规模的数据集和模型参数,因此需要足够的存储资源来保证数据能够快速地被读取和处理。建议选择具有大容量、高速的存储设备,如 SSD 或 NVMe 固态硬盘。一般 4T-8T 不等。

推荐配置参考

GPU算力平台:大模型训练、自动驾驶、深度学习解决方案。

A100/A800大模型训练配置分享

平台:SYS-420GP-TNAR(4U)

CPU:2*8358(32核心,铂金版,2.6GHz 超频 3.4GHz)

GPU:NVIDIA HGX A100/A800(80G SXM)

内存:32*64GB DDR4

H100/H800大模型训练配置分享

平台:SYS-821GE-TNHR(8U)

CPU:2*8468(48核心,铂金版,2.1GHz 超频 3.8GHz)

GPU:NVIDIA HGX H100/H800(80G SXM5)

内存:32*64GB DDR5

六、大模型未来展望

总之,大模型在未来有着巨大的发展潜力,将对各个领域产生深远的影响。我们需要积极应对其带来的挑战,充分发挥其优势,推动社会的可持续发展。