免费在Colab运行Qwen3-0.6B——轻量高性能实战

439 阅读4分钟

Qwen一直在默默地接连推出新模型。

每个模型都配备了如此强大的功能和高度量化的规模,让人无法忽视。

继今年的QvQ、Qwen2.5-VL和Qwen2.5-Omni之后,Qwen团队现在发布了他们最新的模型系列——Qwen3。

这次他们不是发布一个而是发布了八个不同的模型——参数范围从6亿到2350亿不等——与OpenAI的o1、Gemini 2.5 Pro、DeepSeek R1等顶级模型展开竞争。

简介

Qwen3系列包含8个模型,其中两个是混合专家(Mixture-of-Expert, MoE)模型,而其他6个是密集模型。下表包含了所有这些模型的详细信息:

在像Qwen3-235B-A22B和Qwen3-30B-A3B这样的MoE模型中,网络的不同部分或"专家"根据各种输入被激活,使它们高效运行。在像Qwen3-14B这样的密集模型中,对于每个输入,网络的所有部分都会被激活。

Qwen3–0.6B

如果你正在寻找既高效又强大的语言模型,而又不会耗尽你的计算资源,Qwen3-0.6B值得关注。

仅有6亿参数,它带来了令人惊讶的推理能力、多语言灵活性和极快的速度——非常适合开发者、教育工作者和寻求轻量级本地推理的AI爱好者。

在本教程中,我将指导如何在Google Colab上使用Hugging Face的Transformers库免费运行Qwen3-0.6B**。

为什么选择Qwen3-0.6B?  在我们深入代码之前,以下是Qwen3-0.6B值得尝试的原因:

  • ⚡ 超高效率:仅6亿参数——非常适合Colab或低资源系统。
  • 🧠 擅长推理:在STEM/逻辑任务上的表现可与更大的模型相媲美。
  • 🌍 多语言支持:在119种语言的36万亿词元上训练。
  • 🧩 模式切换:可以在"思考"和"非思考"模式之间切换,智能处理任务。
  • 🆓 开源:Apache 2.0许可证——完全自由使用和调整。

步骤详解:在Google Colab上运行Qwen3-0.6B

1. 设置环境

打开一个新的Google Colab笔记本,确保你使用的是GPU(通过运行时 > 更改运行时类型 > GPU)。 安装所需的库:

!pip install transformers accelerate

2. 加载模型和分词器

以下是运行Qwen3-0.6B的核心代码:

from transformers import AutoModelForCausalLM, AutoTokenizer


model_name = "Qwen/Qwen3-0.6B"


# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

3. 生成回应

使用内置的聊天模板准备你的提示和输入格式:

prompt = "请简短介绍一下大型语言模型。"
messages = [
    {"role": "user", "content": prompt}
]


# 使用"思考模式"格式化输入
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

4. 生成并解析输出现在,从模型生成文本并将内部"思考"内容与最终回应分开:

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()


# 解析出思考内容(如果有)
try:
    index = len(output_ids) - output_ids[::-1].index(151668)  # </think>
except ValueError:
    index = 0


thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")


print("🧠 思考内容:", thinking_content)
print("🗨️ 最终内容:", content)

⚡ 示例输出 你可能会看到类似这样的内容:

思考内容: <think>
好的,用户想要了解关于大型语言模型的简短介绍。让我首先回顾一下我对这些模型的了解。它们很大,对吧?所以我应该提到它们的规模和能力。也许先给出一个定义来奠定基础。


我需要包括关键点:它们是在海量数据集上训练的,能够理解和生成文本,并有各种任务。此外,可能还要提一下它们的局限性,比如无法回答所有问题或处理特定上下文。等等,我是否应该包括一些关于用例的内容?比如它们如何在不同行业中被使用?


让我检查一下是否遗漏了什么。用户没有指定任何特定行业,所以保持一般性会更好。尽可能避免技术术语,但既然他们要求的是简短介绍,这样是可以的。确保它简明扼要但涵盖主要方面。好的,让我把这些整合起来。
</think>
内容: 大型语言模型(LLM)是一种旨在理解和生成类人文本的人工智能。这些模型在庞大的数据集上进行训练,使它们能够理解复杂概念、回答问题并创建创意内容。它们可以协助完成各种任务,从写作论文到提供客户支持,但在特定上下文或处理模糊信息时有一定局限性。

你可以用Qwen3-0.6B构建什么

  • 网站或应用的本地聊天机器人
  • STEM学科的教育助手
  • 具有逻辑和推理能力的轻量级智能体
  • 多语言内容生成器

结语

Qwen3-0.6B证明了较小的模型正变得更加智能

它在其规模内表现出色,可以轻松在Colab上运行,并且采用开放使用许可。

朋友可以尝试下。