Qwen是阿里云的通用人工智能模型,设计为大型语言模型(LLM),专注于人工智能驱动的能力。它的评级为4,被定位为适用于各种人工智能应用的多功能工具。Qwen的主要替代品包括ChatGPT、HuggingChat和Perplexity,每种工具都为不同的用户需求提供独特的功能。
中国科技巨头阿里巴巴发布了Qwen3,这是其系列大型语言模型中的最新版本,专为处理文本、代码、数学、图像和音频而设计。旗舰模型Qwen3-235B-A22B在与其他领先模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro的基准测试中表现出色。值得注意的是,较小的专家混合模型(MoE)Qwen3-30B-A3B在激活参数显著减少的情况下,性能优于QwQ-32B,而紧凑型Qwen3-4B的性能可与Qwen2.5-72B-Instruct相媲美。阿里巴巴正在开放两个MoE模型的权重,包括总参数为2350亿(激活参数为220亿)的Qwen3-235B-A22B和总参数为300亿(激活参数为30亿)的Qwen3-30B-A3B。此外,还有六个密集模型在Apache 2.0许可下开放权重。
Qwen3模型采用混合问题解决方法,包括思考模式和非思考模式,适用于复杂和简单的查询。Qwen3模型支持119种语言和方言,并增强了代理能力。经过后训练的模型,如Qwen3-30B-A3B,可在Hugging Face和Kaggle等平台上使用,并可以使用Ollama和LM Studio等软件进行本地部署或运行。