DeepSeek
以下是深度求索(DeepSeek)发布的主要模型及其参数信息:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| DeepSeek-LLM | 2023年 | 未公开 | 通用大语言模型,具备强大的文本理解和生成能力。 |
| DeepSeek-Coder | 2023年 | 未公开 | 专注于代码生成和理解的模型,能够将自然语言描述转换为代码,助力开发者提高编程效率。 |
| DeepSeek-MoE | 2024年1月 | 未公开 | 国内首个开源的专家混合(MoE)大模型,通过引入专家路由机制,在保持模型性能的同时降低计算成本。 |
| DeepSeek-V2 | 2024年5月 | 未公开 | 第二代开源MoE模型,在中文综合能力评测中表现出色,以较低的推理成本获得关注,被称为“AI界的拼多多”。 |
| DeepSeek-V3 | 2024年12月26日 | 6710亿 | 在知识类任务上表现优异,在数学竞赛中超越其他模型。生成速度提升至每秒60个词元,提供更流畅的使用体验。 citeturn0search2 |
| DeepSeek-R1 | 2025年1月 | 未公开 | 最新开源模型,发布后迅速被百度智能云、腾讯云、阿里云、华为云等平台接入,标志着深度求索在AI领域的进一步发展。 |
OpenAI
以下是 OpenAI 发布的主要模型及其特点:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| GPT-1 | 2018年6月 | 1.17亿 | 首个将 Transformer 架构与无监督预训练结合的大型语言模型,展示了强大的文本生成能力。 |
| GPT-2 | 2019年2月 | 15亿 | 扩大了模型规模,展现了更强的文本生成能力,最初因担心滥用未公开完整模型,后逐步发布。 |
| GPT-3 | 2020年6月 | 1750亿 | 显著提升了自然语言处理能力,能够执行多种任务,如翻译、问答和代码生成。 |
| DALL·E | 2021年1月 | 未公开 | 生成模型,能够根据文本描述生成图像,展示了多模态生成的潜力。 |
| Codex | 2021年8月 | 未公开 | 专门用于代码生成的模型,能够将自然语言描述转换为代码,成为 GitHub Copilot 的核心技术。 |
| CLIP | 2021年 | 未公开 | 多模态模型,能够理解图像和文本,并将它们映射到同一嵌入空间,实现跨模态检索和分类。 |
| DALL·E 2 | 2022年4月 | 未公开 | 改进了图像生成算法,提供更高分辨率的图像生成,支持编辑现有图片。 |
| Whisper | 2022年9月 | 未公开 | 多语言语音识别模型,接近人类水平的识别精度,支持多语言语音识别、语音翻译和语言识别。 |
| ChatGPT | 2022年11月 | 基于 GPT-3.5 | 基于 GPT-3.5 优化的对话系统,提供更自然流畅的聊天体验。 |
| GPT-4 | 2023年3月14日 | 未公开 | 支持多模态输入(文本、图像),处理复杂任务的能力更强。 |
| GPT-4o | 2024年5月14日 | 未公开 | 具备更强的多模态处理能力,支持文本、音频和图像的组合输入,并能生成任意组合的输出形式。 |
| o1 | 2024年9月14日 | 未公开 | 引入了增强的多模态融合技术,优化了情感计算和持续学习机制,特别注重隐私保护措施。 |
| o3 | 2024年12月20日 | 未公开 | 专注于复杂推理任务,在数学、编码和科学领域表现突出。引入了“审慎对齐”技术,增强了模型的安全性和可靠性。 |
| o3-mini | 2025年1月31日 | 未公开 | o3 的精简版本,保留了强大的推理能力,同时具备更快的响应速度和更高的性价比。 |
阿里云
以下是阿里云(Alibaba Cloud)发布的主要人工智能模型及其参数信息:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| 通义千问(Qwen) | 2023年4月 | 未公开 | 阿里云首个自研大语言模型,具备强大的文本理解和生成能力,支持多种自然语言处理任务。 |
| 通义千问2.5(Qwen 2.5) | 2024年5月24日 | 1100亿 | 通义千问的升级版本,理解能力、逻辑推理、指令遵循和代码能力均有显著提升。 citeturn0search0 |
| Qwen 2.5-Max | 2025年1月28日 | 未公开 | 基于专家混合(MoE)架构的大规模模型,使用超过20万亿token的预训练数据,性能在多个基准测试中超越其他领先模型。 |
百度
以下是百度发布的主要人工智能模型及其参数信息:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| PLATO-XL | 2021年9月 | 110亿 | 全球首个百亿参数中英文对话预训练生成模型,超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT,在开放域对话效果上取得突破。 citeturn0search0 |
| 鹏城-百度·文心(ERNIE 3.0 Titan) | 2021年12月 | 2600亿 | 全球首个知识增强千亿大模型,在60多项任务上取得最佳效果,是当时全球最大中文单体模型。 |
讯飞
以下是科大讯飞(iFLYTEK)发布的主要人工智能模型及其参数信息:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| 讯飞星火 V1.0 | 2023年5月6日 | 未公开 | 科大讯飞首个大语言模型,具备文本生成、语言理解等能力。 |
| 讯飞星火 V2.0 | 2023年6月9日 | 未公开 | 在V1.0基础上,提升了模型的文本生成质量和语言理解能力。 |
| 讯飞星火 V3.0 | 2023年8月15日 | 未公开 | 增强了模型的多语言支持能力,支持多种语言的文本生成和理解。 |
| 讯飞星火 V4.0 | 2024年6月27日 | 未公开 | 在语音模型能力上实现重大升级,支持37种主流语种和37种方言的识别,整体性能超越GPT-4 Turbo。 |
以下是谷歌(Google)发布的主要人工智能模型及其参数信息:
| 模型名称 | 发布时间 | 参数量 | 主要特点 |
|---|---|---|---|
| LaMDA | 2021年5月 | 1370亿 | 专注于对话应用的大型语言模型,旨在提升对话的自然性和连贯性。 |
| Gemini 1.0 | 2024年12月 | 未公开 | 原生多模态模型,包含Ultra、Pro、Nano三个版本,适用于不同的任务需求。 |
| Gemini 2.0 | 2025年2月 | 未公开 | 谷歌迄今为止最强大的AI模型套件,性能显著提升,支持图像和音频输出,并具备原生工具使用能力。 |
请注意,以上信息由ChatGPT-4o 汇总, 部分模型的参数量尚未公开。或各大公司可能已发布更多模型,建议查阅官方发布渠道以获取最新信息。