AI 大模型对比

238 阅读6分钟

背景

鉴于从0开始训练大模型所需要花费的巨额成本,现在的策略是在预训练大模型基础上进行微调,最终得到一个垂域大模型。

本文中针对 支持微调的大模型进行分析,详细对比产品性能,擅长领域,接入方式,使用成本。

需求分析

1. 接入大模型的主要原因分析

1)创新业务模式:大模型技术可以推动企业创新业务模式,为企业创造新的增长点。例如:

  1. 针对*产业的相关资讯的智能化咨询;
  2. 相关资讯智能推荐;
  3. 产业专业内容、数据解读、研报解读等。

2)提升客户体验:大模型技术可以帮助企业更好地理解客户需求,提供更加个性化的服务和产品,提升客户体验。例如:

  1. 文章阅读和AI解读;
  2. 产业的数据分析;
  3. 网络资讯自动化、机器人化等。

2. 接入大模型的产品需求

应用场景:自然语言处理、文章分析、内容识别和分类、智能推荐、数据分析。

功能需求:自然语言对话、智能摘要、文章解读、文档阅读、推荐算法、行业模型微调。

性能需求

  1. 如响应速度快,有专属的客服团队,日常工作中能及时响应;
  2. 并发处理能力稍强,大于30QPS;
  3. 稳定性要好,系统故障和奔溃率要低于0.05%;
  4. 安全性要强,符合国内的政策法规,经过备案,对敏感词有过滤,对用户输入有识别和违禁词的拦截;
  5. 支持可扩展性,支持微调。

成本预算:年成本 ≤ 120w。

服务与支持:考察供应商的售后服务体系,包括技术支持、培训服务、升级维护等。

技术路线与未来发展:考虑产品是否符合行业发展趋势,能否满足企业未来一段时间内的发展需求。

3. 大模型选型原则与标准

基于以上需求,*在选择大模型产品时应该遵循以下原则与标准:

  1. 性能:产品的性能要稳定可靠,能够高效地处理大量数据,满足企业的业务需求。
  2. 易用性:产品的操作要简单易懂,不需要过多的技术门槛,方便企业快速上手。
  3. 可扩展性:产品要具有良好的可扩展性,能够随着企业业务的发展而不断升级和优化。
  4. 成本:产品的价格要合理,同时要考虑其性价比,避免不必要的浪费。
  5. 技术支持与服务:产品提供商要具备完善的技术支持和服务体系,能够及时解决企业遇到的问题。

大模型分析

国内外关于大模型的积极投入和研发大模型技术,现在主流有:

  • 百度文心大模型
  • 百川大模型
  • Minimax大模型
  • 阿里通义大模型
  • 智谱AI大模型
  • 讯飞星火大模型
  • OpenAI
  • Google Gemini
  • LLaMA

百度文心大模型

产品介绍网址:wenxin.baidu.com/

能力包括:

  1. 通用大模型
  2. 多模态
  3. 行业级应用
  4. AI应用场景全覆盖
  5. 多类AI工具配合使用

优势分析:

  • 擅长 数学、语言理解、代码生成;

  • 百度生态产品,如百度一下;

微调策略:文心千帆提供的API或相关开发工具包进行模型训练

参考价格:

  • 公有云 - 0.008 - 0.012 / 千tokens

  • 私有云 - 微调大模型 成本在30w以上

百川大模型

产品介绍网址:www.baichuan-ai.com/home

能力包括:

  1. 通用大模型
  2. 开放API
  3. 中英双语

优势分析:

  • 长上下文窗口和搜索增强;

  • 支持PDF、Word等多种文档上传及网址输入;

  • 初创公司

微调策略:暂未找到

参考价格:

  • 公有云 - 0.008 - 0.016 / 千tokens

MINIMAX大模型

产品介绍网址:api.minimax.chat/]

能力包括:

  1. 语音大模型大模型
  2. 文本大模型
  3. 向量
  4. 知识库

优势分析:

  • 低门槛微调

微调策略:暂未找到

参考价格:

  • 微调价格 -
    • 训练 0.06/千tokens
    • 推理 0.05/千tokens

阿里通义大模型

产品介绍网址:tongyi.aliyun.com/

能力包括:

  1. 通用大模型
  2. 开发并上线了基于通义千问的8个垂直领域模型。

微调策略:自己下载模型,基于数据进行微调

参考价格:

  • API 免费额度 + 0.008 / 千tokens

讯飞星火大模型

产品介绍网址:xinghuo.xfyun.cn/?ch=bdtg_xh…

能力包括:

  1. 新一代认知智能大模型
  2. 拥有跨领域知识和语言理解能力,能够基于自然对话方式理解与执行任务。

微调策略:自己下载模型,基于数据进行微调

参考价格:

  • API 免费额度 + 0.024 / 千tokens

OpenAI chatGPT-Turbo大模型

产品介绍网址: 略

能力包括:

  1. 通用大模型;
  2. 支持多语言;
  3. 强大的语言理解和生成能力,表现优于国内大模型;

微调策略:对于闭源的大模型,微调可能要在他的云服务平台上进行。

参考价格:

  • gpt-3.5-turbo,0.002美元/千 tokens。
  • 未来可能不对中国提供服务

Google Gemini大模型

产品介绍网址: 略

能力包括:

  1. 多模态大模型, 具备同时处理文本、图像、音频、视频和代码五种类型信息的能力,可以实现不同模态之间的转换和理解;
  2. 支持多语言,暂不支持中文;
  3. 强大的语言理解和生成能力,表现优于国内大模型;
  4. 自然语言处理能力:Gemini在自然语言处理方面表现出色,包括文本分类、情感分析、问答系统等任务,同时支持多种主流编程语言的高质量代码生成。
  5. 强大的推理能力:在短时间内通读大量论文并进行总结,展现出了强大的复杂推理能力。

微调策略:略

参考价格:

  • 目前尚未有公开信息

LLaMA大模型

产品介绍网址: 略

能力包括:

  1. 自然语言理解与生成:LLaMA能够理解复杂的自然语言文本,并生成连贯、自然的文本输出。它适用于多种自然语言处理任务,如文本摘要、翻译、问答系统等。
  2. 支持多语种;
  3. 知识整合与推理:该模型能够从大量数据中学习到丰富的世界知识,并具有一定的推理能力,可以应用于知识密集型的任务。

微调策略:硬件支持

参考价格:

总结

国内外都有模型,但是在支持是否多语种方式,国外的模型基本上会比国内的模型支持的更多。

参考资料