新功能上线
平台公共模型界面现已推出「一键部署」功能,具体使用方式如下:
- 进入「公共模型」,点击模型右侧的「小火箭」标识,即可快速部署该模型。
- 也可以在点击模型后,选择右上角「部署当前版本」进行部署。
本周资源更新
4 个公共教程:
-
微软 VibeVoice-1.5B 重新定义 TTS 技术边界
-
vLLM+Open WebUl 部署 gemma-3-270m-it
-
vLLM+Open WebUl 部署 Seed-OSS-36B-Instruct
-
vLLM + Open WebUI 部署 NVIDIA-Nemotron-Nano-9B-v2
10 个公共模型:
-
Jan-v1-4B
-
KernelLLM-8B
-
AM-Thinking-v1
-
gemma-3-270m
-
EXAONE-4.0-32B
-
QwenLong-L1-32B
-
Seed-OSS-36B-Instruct
-
Qwen3-4B-Instruct-2507
-
Qwen3-4B-Thinking-2507
-
Phi-4-mini-flash-reasoning
访问网立即使用:openbayes.com
公共教程
- 微软 VibeVoice-1.5B 重新定义 TTS 技术边界
VibeVoice-1.5B 能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。该模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的能力,同时保持高保真度。VibeVoice 能合成长达 90 分钟的语音,支持多达 4 位不同说话者,突破传统 TTS 系统的限制,为自然对话和情感表达提供新的可能。
- 在线运行:go.openbayes.com/P170p
项目示例
- vLLM+Open WebUl 部署 gemma-3-270m-it
gemma-3-270m-it 基于 270M(2.7亿)参数构建,专注于高效对话交互与轻量化部署。该模型轻量高效,仅需单卡 1GB+ 显存即可运行,适合边缘设备与低资源场景;支持多轮对话,针对日常问答、简单任务指令进行专项微调,专注文本生成与理解(不支持图像等多模态输入),且支持 32K tokens 上下文窗口,可处理长文本对话。
- 在线运行:go.openbayes.com/M8MB7
项目示例
- vLLM+Open WebUl 部署 Seed-OSS-36B-Instruct
Seed-OSS-36B-Instruct 使用了 12万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。该模型的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。
- 在线运行:go.openbayes.com/II5aV
项目示例
- vLLM + Open WebUI 部署 NVIDIA-Nemotron-Nano-9B-v2
NVIDIA-Nemotron-Nano-9B-v2 作为 Nemotron 系列的混合架构优化版本,该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力,仅以 90 亿(9B)参数就实现了 128K 超长上下文支持,在边缘计算设备(如 RTX 4090 级 GPU)上的推理效率与任务性能,可对标同参数规模的前沿模型,标志着大语言模型在轻量化部署与长文本理解领域的重大突破。
- 在线运行:go.openbayes.com/Xl6tH
项目示例
公共模型
- Jan-v1-4B
- 发布机构:Jan 团队(JanHQ)
Jan-v1-4B 是 Jan 家族的首发版本并面向 Jan App 的实际工作流场景而设计。该模型基于阿里云 Qwen3-4B-Thinking 模型微调而来,仅用 4 亿参数便在 SimpleQA 基准测试中达到 91% 的准确率,性能媲美商业产品 Perplexity Pro。Jan-v1-4B 支持 256 Ktokens 的上下文长度,并可通过YaRN技术扩展至 100 万 tokens,具备全本地运行的能力。此外,该模型采用双模推理机制,支持逻辑推理、工具调用和复杂任务处理,适用于学术研究、长文档分析、代码生成及智能代理等场景。
- 在线使用:
- KernelLLM-8B
- 发布机构:Meta
KernelLLM-8B 的核心功能是将 PyTorch 代码自动转换为高效的 Triton GPU 内核,旨在降低高性能 GPU 编程的门槛,满足对定制化内核解决方案日益增长的需求。尽管模型规模相对较小,但其在专门化的基准测试中展现了卓越的性能:在 KernelBench-Triton 的测试中,其单次推理(pass@1)得分达到了 20.2,超越了参数规模大得多的 GPT-4o (200B) 和 DeepSeek V3 (671B) 等模型。
- 在线使用:
- AM-Thinking-v1
- 发布机构:a-m-team 团队
AM-Thinking-v1 基于开源的 Qwen2.5-32B 基础模型构建,并完全采用公开数据集进行训练。该模型在数学推理(AIME2024 得分 85.3)和代码生成(LiveCodeBench 得分 70.3)等需要复杂逻辑的任务上表现出色,其性能超越了参数规模更大的 DeepSeek-R1(671B MoE),并接近 Qwen3-235B-A22B 等顶级大模型,展现了中等规模模型通过精细设计后训练流程所能达到的强大推理潜力。
- 在线使用:
- gemma-3-270m
- 发布机构:谷歌
Gemma-3-270M 参数量仅为 2.7 亿,专为终端设备部署和低功耗场景优化。该模型具备出色的指令遵循和文本结构化能力,其 INT4 量化版本运行时仅需约 240 MB 内存,能高效运行于手机、浏览器甚至树莓派等资源受限环境,非常适合需要快速响应、隐私保护或离线处理的任务,如情感分析、实体提取和创意写作。
- 在线使用:
- EXAONE-4.0-32B
- 发布机构:LG AI Research
EXAONE-4.0 集成了非推理模式与推理模式,旨在同时实现 EXAONE 3.5 的卓越易用性和EXAONE Deep 的高级推理能力。该模型支持 MCP 与函数调用功能,为 Agentic AI 提供技术基础,除了韩语、英语之外还支持西班牙语。
- 在线使用:
- QwenLong-L1-32B
- 发布机构:阿里巴巴通义千问团队
QwenLong-L1-32B 是全球首个通过强化学习(RL)专项训练的长文本推理模型(LRM),能够高效处理长达 13w token 的上下文。该模型采用渐进式上下文扩展和混合奖励函数等创新技术,在多项长文本问答基准测试中展现出卓越性能。该模型专为复杂的长文档分析与推理任务设计,在金融、法律、科研等需要深度处理大量信息的领域有重要应用价值。
- 在线使用:
- Seed-OSS-36B-Instruct
- 发布机构:字节跳动 Seed 团队
Seed-OSS-36B-Instruct 以其强大的推理能力、原生的 512K 超长上下文支持和创新的「推理预算」控制机制著称。该模型在多项基准测试中取得了领先成绩,并能灵活处理需要长文本理解和复杂逻辑推理的任务。
- 在线使用:
- Qwen3-4B-Instruct-2507
- 发布机构:阿里巴巴通义千问团队
Qwen3-4B-Instruct-2507 是之前 Qwen3 非思考模式的更新版本,在非推理领域,Qwen3-4B-Instruct-2507 在知识、推理、编程、对齐以及 agengt 能力上全面超越了闭源的小尺寸模型 GPT-4.1-nano。
- 在线使用:
- Qwen3-4B-Thinking-2507
- 发布机构:阿里巴巴通义千问团队
Qwen3-Thinking-2507 是 Qwen3 思维模型的延续,具有更高的推理质量和深度。性能方面,Qwen3-4B-Thinking-2507 在复杂问题推理能力、数学能力、代码能力以及多轮函数调用能力上的表现大幅领先 Qwen3 同尺寸小模型。在推理领域,Qwen3-4B-Thinking-2507 表现突出,推理能力可媲美中等模型 Qwen3-30B-Thinking。
- 在线使用:
- Phi-4-mini-flash-reasoning
- 发布机构:Microsoft 团队
Phi-4-mini-flash-reasoning 基于合成数据构建,专注于高质量、密集推理数据,并进一步微调以获得更高级的数学推理能力。该模型能够在边缘设备、移动应用和嵌入式系统等资源不足的场景下,引入先进的推理功能。在架构方面,Phi-4-mini-flash-reasoning 引入了自主研发的创新架构 SambaY,延迟平均降低了 2 至 3 倍,整体推理性能显著增强。
- 在线使用: