大语言模型:DeepSeek简介及使用方式

1,664 阅读5分钟

DeepSeek(深度求索)全称杭州深度求索人工智能基础技术研究有限公司,是一家专注于通用人工智能(AGI)与大型语言模型(LLM)的创新型科技公司,该公司的总部位于中国大陆浙江省杭州市,由对冲基金幻方量化(High-Flyer)创立,创始人和首席执行官为梁文锋。此外,DeepSeek也是一款由DeepSeek公司推出的免费AI助手(生成式人工智能聊天机器人),基于DeepSeek-V3模型和DeepSeek-R1模型。

DeepSeek以相对较小的成本却获得极具竞争力的性能则被认为可能足以挑战美国人工智能领域模型优势地位。许多媒体将其描述为美国人工智能领域的“史普尼克危机”。

斯普特尼克危机(Sputnik crisis),是指1957年10月4日苏联抢先美国成功发射斯普特尼克1号人造卫星,令西方世界陷入一段恐惧和焦虑的时期。这场危机是冷战中的其中一个重大事件及转捩点,当时美国一直认为自己在导弹和航天领域上站于领导地位,并曾经在斯普特尼克1号发射前尝试过两次试射人造卫星,但均告失败。斯普特尼克1号发射的成功显示了美苏之间的技术差距,引发了美国宇航局的成立和两个超级大国之间持续20多年的太空竞赛。

发展历程

  • 2023/07/17 DeepSeek公司注册成立

  • 2023/11/02 DeepSeek-Coder(代码领域模型),深度求索发布的第一代大模型

  • 2023/11/29 DeepSeek-LLM(通用领域模型)

  • 2023/12/15 DreamCraft3D(3D生成模型)

  • 2024/01/11 DeepSeek-MoE(Mixture-of-Experts,混合专家模型),性能超越Llama 2-7B,且计算量降低60%

  • 2024/02/05 DeepSeek-Math(数学领域模型),接近Gemini-Ultra和GPT-4的性能水平

  • 2024/03/11 DeepSeek-VL(通用视觉语言理解模型,Vision-Language)

  • 2024/05/06 DeepSeek-V2(通用MoE模型)

  • 2024/06/17 DeepSeek-Coder-V2,代码能力超越GPT-4-Turbo

  • 2024/09/05 DeepSeek-V2.5,合并DeepSeek-V2-Chat和DeepSeek-Coder-V2两个模型。DeepSeek-V2.5-1210是DeepSeek-V2.5的最终版微调模型。

  • 2024/11/20 Deepseek-R1-Lite(推理模型预览版)

  • 2024/12/13 DeepSeek-VL2(专家混合视觉语言模型)

  • 2024/12/26 DeepSeek-V3,多项评测成绩超越Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o以及Claude-3.5-Sonnet不分伯仲。

  • 2025/01/15 DeepSeek APP(AI智能对话助手),支持iOS和Android。

  • 2025/01/20 DeepSeek-R1(推理模型),性能对标OpenAI-o1正式版。DeepSeek-R1遵循标准化、宽松的MIT License,完全开源,不限制商用,无需申请。此外,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

  • 2025/01/27 Janus-Pro(多模态大模型)

推理模型会在输出最终回答(content)之前,模型会先输出一段思维链内容(reasoning_content),以提升最终答案的准确性。

知识蒸馏(knowledge distillation)是人工智能领域的一项模型训练技术。这一技术最初由“深度学习教父”杰弗里·辛顿(Geoffrey Hinton)及其同事在2015年提出,旨在解决在资源受限的现实环境中部署复杂模型时面临的挑战。知识蒸馏的主要目标是,在不显著牺牲精度的情况下,将大型模型中的知识压缩到小型模型中,从而使其更适合在资源有限的设备上部署,并相对于从头开始训练的模型表现出更好的性能。

模型性能

在目前大模型主流榜单中,DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。DeepSeek-R1性能对标OpenAI-o1正式版。

1.jpg

image.png

模型使用

(1)官方应用

登录官方网页或官方APP,可以直接使用。打开“深度思考”模式,即可调用最新版DeepSeek-R1完成各类推理任务。

image.png

image.png

“联网搜索”模式将深入阅读海量网页,为用户生成全面、准确、满足个性化需求的回答。面对用户的复杂问题,模型将自动提取多个关键词并行搜索,在更短时间内提供更加多样的搜索结果。

“深度思考”模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。

(2)官方API

DeepSeek API使用与OpenAI兼容的API格式,通过修改配置,可以使用OpenAI SDK来访问DeepSeek API,或使用与OpenAI API兼容的软件。

cURL示例

# 样例为非流式输出,可以将stream设置为true来使用流式输出
curl -L -X POST 'https://api.deepseek.com/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Accept: application/json' \
-H 'Authorization: Bearer <DeepSeek API Key>' \
--data-raw '{
  "messages": [
    {
      "content": "You are a helpful assistant",
      "role": "system"
    },
    {
      "content": "Hi",
      "role": "user"
    }
  ],
  "model": "deepseek-chat",
  "frequency_penalty": 0,
  "max_tokens": 2048,
  "presence_penalty": 0,
  "response_format": {
    "type": "text"
  },
  "stop": null,
  "stream": false,
  "stream_options": null,
  "temperature": 1,
  "top_p": 1,
  "tools": null,
  "tool_choice": "none",
  "logprobs": false,
  "top_logprobs": null
}'

Python示例

# Please install OpenAI SDK first: `pip3 install openai`
from openai import OpenAI

# for backward compatibility, you can still use `https://api.deepseek.com/v1` as `base_url`.
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
  ],
    max_tokens=1024,
    temperature=0.7,
    stream=False
)

print(response.choices[0].message.content)

deepseek-chat已经升级为DeepSeek-V3(对话模型),deepseek-reasoner为DeepSeek-R1(推理模型)。

(3)本地部署

  • 安装Ollama:根据操作系统类型从官网下载安装程序,双击安装即可。运行命令ollama --version

image.png

image.png

  • 下载模型:根据电脑硬件资源选择合适的模型版本,运行命令ollama pull deepseek-r1:1.5b

image.png

  • 运行模型:运行命令ollama run deepseek-r1:1.5b

image.png

  • 访问模型:使用AI客户端(例如Chatbox)与模型进行交互

说明:本地模型应该选择OLLAMA API,服务地址为http://localhost:11434

image.png

image.png