OpenBayes 官方教程

OpenBayes 官方教程

OpenBayes 官方教程

本专栏主要发布 OpenBayes 官方教程，帮助用户快速上手

等 2 人订阅共76篇文章创建于2024-02-01

教程上新丨狂揽 41k stars，港大团队开源超轻量 AI 助手 nanobot，4000 行代码实现 OpenClaw 核心功能

港大 HKUDS 开源的轻量级 AI 助手 nanobot，成功将 Agent 核心能力压缩至不足4000 行纯 Python 代码。

5天前
127
1
评论

教程上新丨狂揽 41k stars，港大团队开源超轻量 AI 助手 nanobot，4000 行代码实现 OpenClaw 核心功能

教程上新丨支持 600+ 语言，小米开源 OmniVoice：仅需 3-10 秒参考音频实现语音克隆

小米 AI Lab 团队发布 OmniVoice，支持超过 600+ 种语言和方言、具备 Voice Clone、Voice Design 与 Auto Voice 等能力。

8天前
54
点赞
评论

教程上新丨支持 600+ 语言，小米开源 OmniVoice：仅需 3-10 秒参考音频实现语音克隆

教程上新丨指令遵循 / 推理 / 编码三合一，Mistral Medium 3.5 把 Coding Agent 搬上云端

MistralAI 发布旗舰级模型 MistralMedium3.5，标志着 AI 编程助手向自主执行任务的智能系统转变。

17天前
55
点赞
评论

教程上新丨指令遵循 / 推理 / 编码三合一，Mistral Medium 3.5 把 Coding Agent 搬上云端

教程上新丨Qwen3.6 系列首个开源模型 Agent 编程能力大涨，激活参数仅 3B 超越 Gemma4-31B

近日，Qwen3.6 系列中等尺寸模型 Qwen3.6-35B-A3B 正式开源，低功耗高性能，仓库级开发神器！

1月前
149
点赞
评论

教程上新丨Qwen3.6 系列首个开源模型 Agent 编程能力大涨，激活参数仅 3B 超越 Gemma4-31B

教程上新丨一键部署Gemma 4 31B，最高256K上下文，能力媲美Qwen3.5 397B

Google DeepMind开源Gemma 4系列模型，基于与Gemini 3同源技术，以较小参数规模跻身AI排行榜前三。该系列包含多个尺寸模型，覆盖移动端到高性能场景。

1月前
145
点赞
评论

教程上新丨一键部署Gemma 4 31B，最高256K上下文，能力媲美Qwen3.5 397B

低功耗实时交互：Granite 4.0 轻量级语音模型新基座；OmniCoder-9B 跨语言映射，实现补全一致性

公共资源速递 7 个公共教程： LTX-2.3-turbo 视频生成器 Voxtral-4B-TTS-2603 多语言语音生成 Cohere Transcribe：生产环境下的开源语音识别利器

1月前
102
点赞
评论

低功耗实时交互：Granite 4.0 轻量级语音模型新基座；OmniCoder-9B 跨语言映射，实现补全一致性

教程上新丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力，兼顾高质量输出与低门槛部署

近年来，大模型不断向更强推理能力与更高推理效率演进，如何在保持模型表达能力的同时提升复杂问题求解质量，已经成为行业关注的核心方向。

1月前
182
1
评论

教程上新丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力，兼顾高质量输出与低门槛部署

教程上新丨华中科大与小红书 hi lab 开源 dots.mocr，SOTA 级 OCR 模型完美还原文档结构，图形也能转 SVG

面对海量文档中的复杂图表、表格和多语言内容，传统 OCR 常常力不从心，主要原因是其核心能力集中于文本识别，往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像，导致文档结构被破坏、语义关系丢失，

1月前
78
点赞
评论

教程上新丨华中科大与小红书 hi lab 开源 dots.mocr，SOTA 级 OCR 模型完美还原文档结构，图形也能转 SVG

教程上新｜低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

NVIDIA在GTC2026大会上重点推出PhysicalAI概念，强调AI与物理世界的深度融合。大会发布多个模型

2月前
117
点赞
评论

教程上新｜低门槛部署英伟达最新 Physical AI 模型，覆盖人形机器人/人体运动生成/扩散模型微调等

教程上新丨基于 GPU 部署 OpenClaw，轻松接入飞书/Discord 等社交软件

在 NVIDIA GTC 2026 期间，黄仁勋对 OpenClaw 的高度评价为其热度又添了一把柴——OpenClaw 现在是人类历史上最大、最受欢迎、最成功的开源项目，这绝对是下一个 ChatGP

2月前
344
点赞
评论

教程上新丨基于 GPU 部署 OpenClaw，轻松接入飞书/Discord 等社交软件

教程上新丨微软开源3D生成模型TRELLIS.2，3秒生成高分辨率的全纹理资产

过去数年，生成式 AI 已经在 2D 内容——图像、视频、文本上实现了规模化应用，但 3D 生成却始终是那块看似近在眼前、却迟迟难以跨越的高地，因其不仅是维度的提升，更是对表示方式、学习目标和工程可用

2月前
100
1
评论

教程上新丨微软开源3D生成模型TRELLIS.2，3秒生成高分辨率的全纹理资产

教程上新丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

当生成式 AI 不再局限于「生成文字」，而是开始真正「发出声音」，语音就从信息通道升级为可编程、可塑造的表达媒介。

2月前
114
点赞
评论

教程上新丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术，实现OCR高精度、本地化部署

在数字化浪潮席卷各行各业的今天，大量信息仍然以图片、扫描件、PDF 甚至手写文稿的形式存在。如何让机器「读懂」这些非结构化的视觉内容，并将其转化为可编辑、可检索、可分析的文本数据？这正是 OCR（Op

2月前
239
点赞
评论

OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术，实现OCR高精度、本地化部署

教程上新｜微信AI团队提出扩散语言模型WeDLM，相较vLLM部署AR模型实现3倍推理加速

在规模化部署和商业落地场景中，推理速度的权重日益提升，甚至在许多情况下超过了单纯的模型参数量，成为决定其工程价值的关键因素。

3月前
87
点赞
评论

教程上新｜微信AI团队提出扩散语言模型WeDLM，相较vLLM部署AR模型实现3倍推理加速

教程上新｜DeepSeek-OCR 2公式/表格解析同步改善，以低视觉token成本实现近4%的性能跃迁

在视觉语言模型（VLMs）的发展进程中，文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token，这种刚性流程与人类视觉系统遵

3月前
135
点赞
评论

教程上新｜DeepSeek-OCR 2公式/表格解析同步改善，以低视觉token成本实现近4%的性能跃迁

教程上新｜腾讯混元开源端侧翻译工具HY-MT1.5，1.8B模型仅需1G内存

在机器翻译领域，传统的高性能模型往往面临两个核心难题。对于主流语言，闭源商业模型效果出众但调用成本高，模型参数量动辄百亿级别，需要高昂的算力支持，难以在手机等消费级设备上部署。另一方面，对于数据稀缺的

4月前
147
点赞
评论

教程上新｜腾讯混元开源端侧翻译工具HY-MT1.5，1.8B模型仅需1G内存

教程上新丨基于AI手势识别，仅用CPU即可定制形态多变的3D圣诞树

装饰圣诞树几乎成了每个家庭迎接节日时不可或缺的一环，彩灯一圈圈绕上树枝，挂件、照片慢慢填满空隙，灯亮起的那一刻，节日的氛围也随之到位。随着圣诞节临近，小贝也为大家置办了一棵「赛博圣诞树」。3D Ch

4月前
81
点赞
评论

教程上新丨基于AI手势识别，仅用CPU即可定制形态多变的3D圣诞树

教程上新丨微软开源VibeVoice，可实现90分钟4角色自然对话

近年来，文本转语音（TTS）合成技术进展显著，已能够为单一说话者合成高保真、听觉自然的短话语。然而，在面对长格式、多说话人对话音频的可扩展合成时，仍存在重要挑战，限制了诸如播客与多角色有声书场景下的应

5月前
98
点赞
评论

教程上新丨微软开源VibeVoice，可实现90分钟4角色自然对话

教程上新丨30毫秒处理100个检测对象，SAM 3实现可提示概念分割，性能提升2倍

在视觉场景中识别并分割任意物体的能力，是多模态人工智能的重要基础，可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM（Segment Anything Model）是 Meta 于 202

5月前
136
点赞
评论

教程上新丨30毫秒处理100个检测对象，SAM 3实现可提示概念分割，性能提升2倍

教程上新丨图像生成新SOTA，FLUX.2可同时参考10张图，实现超高角色/风格一致性

日前，沉寂已久的 Black Forest Labs 再度发力，开源新一代图像生成与编辑模型 FLUX.2。2024 年 FLUX.1 横空出世，在生成人物、尤其是真实人物的场景时，达到了接近真人实拍

5月前
178
点赞
评论

教程上新丨图像生成新SOTA，FLUX.2可同时参考10张图，实现超高角色/风格一致性