各个模型的特点及其参数信息

369 阅读6分钟

DeepSeek

以下是深度求索(DeepSeek)发布的主要模型及其参数信息:

模型名称发布时间参数量主要特点
DeepSeek-LLM2023年未公开通用大语言模型,具备强大的文本理解和生成能力。
DeepSeek-Coder2023年未公开专注于代码生成和理解的模型,能够将自然语言描述转换为代码,助力开发者提高编程效率。
DeepSeek-MoE2024年1月未公开国内首个开源的专家混合(MoE)大模型,通过引入专家路由机制,在保持模型性能的同时降低计算成本。
DeepSeek-V22024年5月未公开第二代开源MoE模型,在中文综合能力评测中表现出色,以较低的推理成本获得关注,被称为“AI界的拼多多”。
DeepSeek-V32024年12月26日6710亿在知识类任务上表现优异,在数学竞赛中超越其他模型。生成速度提升至每秒60个词元,提供更流畅的使用体验。 citeturn0search2
DeepSeek-R12025年1月未公开最新开源模型,发布后迅速被百度智能云、腾讯云、阿里云、华为云等平台接入,标志着深度求索在AI领域的进一步发展。

OpenAI

以下是 OpenAI 发布的主要模型及其特点:

模型名称发布时间参数量主要特点
GPT-12018年6月1.17亿首个将 Transformer 架构与无监督预训练结合的大型语言模型,展示了强大的文本生成能力。
GPT-22019年2月15亿扩大了模型规模,展现了更强的文本生成能力,最初因担心滥用未公开完整模型,后逐步发布。
GPT-32020年6月1750亿显著提升了自然语言处理能力,能够执行多种任务,如翻译、问答和代码生成。
DALL·E2021年1月未公开生成模型,能够根据文本描述生成图像,展示了多模态生成的潜力。
Codex2021年8月未公开专门用于代码生成的模型,能够将自然语言描述转换为代码,成为 GitHub Copilot 的核心技术。
CLIP2021年未公开多模态模型,能够理解图像和文本,并将它们映射到同一嵌入空间,实现跨模态检索和分类。
DALL·E 22022年4月未公开改进了图像生成算法,提供更高分辨率的图像生成,支持编辑现有图片。
Whisper2022年9月未公开多语言语音识别模型,接近人类水平的识别精度,支持多语言语音识别、语音翻译和语言识别。
ChatGPT2022年11月基于 GPT-3.5基于 GPT-3.5 优化的对话系统,提供更自然流畅的聊天体验。
GPT-42023年3月14日未公开支持多模态输入(文本、图像),处理复杂任务的能力更强。
GPT-4o2024年5月14日未公开具备更强的多模态处理能力,支持文本、音频和图像的组合输入,并能生成任意组合的输出形式。
o12024年9月14日未公开引入了增强的多模态融合技术,优化了情感计算和持续学习机制,特别注重隐私保护措施。
o32024年12月20日未公开专注于复杂推理任务,在数学、编码和科学领域表现突出。引入了“审慎对齐”技术,增强了模型的安全性和可靠性。
o3-mini2025年1月31日未公开o3 的精简版本,保留了强大的推理能力,同时具备更快的响应速度和更高的性价比。

阿里云

以下是阿里云(Alibaba Cloud)发布的主要人工智能模型及其参数信息:

模型名称发布时间参数量主要特点
通义千问(Qwen)2023年4月未公开阿里云首个自研大语言模型,具备强大的文本理解和生成能力,支持多种自然语言处理任务。
通义千问2.5(Qwen 2.5)2024年5月24日1100亿通义千问的升级版本,理解能力、逻辑推理、指令遵循和代码能力均有显著提升。 citeturn0search0
Qwen 2.5-Max2025年1月28日未公开基于专家混合(MoE)架构的大规模模型,使用超过20万亿token的预训练数据,性能在多个基准测试中超越其他领先模型。

百度

以下是百度发布的主要人工智能模型及其参数信息:

模型名称发布时间参数量主要特点
PLATO-XL2021年9月110亿全球首个百亿参数中英文对话预训练生成模型,超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT,在开放域对话效果上取得突破。 citeturn0search0
鹏城-百度·文心(ERNIE 3.0 Titan)2021年12月2600亿全球首个知识增强千亿大模型,在60多项任务上取得最佳效果,是当时全球最大中文单体模型。

讯飞

以下是科大讯飞(iFLYTEK)发布的主要人工智能模型及其参数信息:

模型名称发布时间参数量主要特点
讯飞星火 V1.02023年5月6日未公开科大讯飞首个大语言模型,具备文本生成、语言理解等能力。
讯飞星火 V2.02023年6月9日未公开在V1.0基础上,提升了模型的文本生成质量和语言理解能力。
讯飞星火 V3.02023年8月15日未公开增强了模型的多语言支持能力,支持多种语言的文本生成和理解。
讯飞星火 V4.02024年6月27日未公开在语音模型能力上实现重大升级,支持37种主流语种和37种方言的识别,整体性能超越GPT-4 Turbo。

Google

以下是谷歌(Google)发布的主要人工智能模型及其参数信息:

模型名称发布时间参数量主要特点
LaMDA2021年5月1370亿专注于对话应用的大型语言模型,旨在提升对话的自然性和连贯性。
Gemini 1.02024年12月未公开原生多模态模型,包含Ultra、Pro、Nano三个版本,适用于不同的任务需求。
Gemini 2.02025年2月未公开谷歌迄今为止最强大的AI模型套件,性能显著提升,支持图像和音频输出,并具备原生工具使用能力。

请注意,以上信息由ChatGPT-4o 汇总, 部分模型的参数量尚未公开。或各大公司可能已发布更多模型,建议查阅官方发布渠道以获取最新信息。