首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
OpenBayes 官方教程
OpenBayes贝式计算
创建于2024-02-01
订阅专栏
本专栏主要发布 OpenBayes 官方教程,帮助用户快速上手
等 2 人订阅
共76篇文章
创建于2024-02-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
教程上新丨狂揽 41k stars,港大团队开源超轻量 AI 助手 nanobot,4000 行代码实现 OpenClaw 核心功能
港大 HKUDS 开源的轻量级 AI 助手 nanobot,成功将 Agent 核心能力压缩至不足4000 行纯 Python 代码。
教程上新丨支持 600+ 语言,小米开源 OmniVoice:仅需 3-10 秒参考音频实现语音克隆
小米 AI Lab 团队发布 OmniVoice,支持超过 600+ 种语言和方言、具备 Voice Clone、Voice Design 与 Auto Voice 等能力。
教程上新丨指令遵循 / 推理 / 编码三合一,Mistral Medium 3.5 把 Coding Agent 搬上云端
MistralAI 发布旗舰级模型 MistralMedium3.5,标志着 AI 编程助手向自主执行任务的智能系统转变。
教程上新丨Qwen3.6 系列首个开源模型 Agent 编程能力大涨,激活参数仅 3B 超越 Gemma4-31B
近日,Qwen3.6 系列中等尺寸模型 Qwen3.6-35B-A3B 正式开源,低功耗高性能,仓库级开发神器!
教程上新丨一键部署Gemma 4 31B,最高256K上下文,能力媲美Qwen3.5 397B
Google DeepMind开源Gemma 4系列模型,基于与Gemini 3同源技术,以较小参数规模跻身AI排行榜前三。该系列包含多个尺寸模型,覆盖移动端到高性能场景。
低功耗实时交互:Granite 4.0 轻量级语音模型新基座;OmniCoder-9B 跨语言映射,实现补全一致性
公共资源速递 7 个公共教程: LTX-2.3-turbo 视频生成器 Voxtral-4B-TTS-2603 多语言语音生成 Cohere Transcribe:生产环境下的开源语音识别利器
教程上新丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署
近年来,大模型不断向更强推理能力与更高推理效率演进,如何在保持模型表达能力的同时提升复杂问题求解质量,已经成为行业关注的核心方向。
教程上新丨华中科大与小红书 hi lab 开源 dots.mocr,SOTA 级 OCR 模型完美还原文档结构,图形也能转 SVG
面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
NVIDIA在GTC2026大会上重点推出PhysicalAI概念,强调AI与物理世界的深度融合。大会发布多个模型
教程上新丨基于 GPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件
在 NVIDIA GTC 2026 期间,黄仁勋对 OpenClaw 的高度评价为其热度又添了一把柴——OpenClaw 现在是人类历史上最大、最受欢迎、最成功的开源项目,这绝对是下一个 ChatGP
教程上新丨微软开源3D生成模型TRELLIS.2,3秒生成高分辨率的全纹理资产
过去数年,生成式 AI 已经在 2D 内容——图像、视频、文本上实现了规模化应用,但 3D 生成却始终是那块看似近在眼前、却迟迟难以跨越的高地,因其不仅是维度的提升,更是对表示方式、学习目标和工程可用
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
当生成式 AI 不再局限于「生成文字」,而是开始真正「发出声音」,语音就从信息通道升级为可编程、可塑造的表达媒介。
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
在数字化浪潮席卷各行各业的今天,大量信息仍然以图片、扫描件、PDF 甚至手写文稿的形式存在。如何让机器「读懂」这些非结构化的视觉内容,并将其转化为可编辑、可检索、可分析的文本数据?这正是 OCR(Op
教程上新|微信AI团队提出扩散语言模型WeDLM,相较vLLM部署AR模型实现3倍推理加速
在规模化部署和商业落地场景中,推理速度的权重日益提升,甚至在许多情况下超过了单纯的模型参数量,成为决定其工程价值的关键因素。
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵
教程上新| 腾讯混元开源端侧翻译工具HY-MT1.5,1.8B模型仅需1G内存
在机器翻译领域,传统的高性能模型往往面临两个核心难题。对于主流语言,闭源商业模型效果出众但调用成本高,模型参数量动辄百亿级别,需要高昂的算力支持,难以在手机等消费级设备上部署。另一方面,对于数据稀缺的
教程上新丨基于AI手势识别,仅用CPU即可定制形态多变的3D圣诞树
装饰圣诞树几乎成了每个家庭迎接节日时不可或缺的一环,彩灯一圈圈绕上树枝,挂件、照片慢慢填满空隙,灯亮起的那一刻,节日的氛围也随之到位。 随着圣诞节临近,小贝也为大家置办了一棵「赛博圣诞树」。3D Ch
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话
近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍
在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 202
教程上新丨图像生成新SOTA,FLUX.2可同时参考10张图,实现超高角色/风格一致性
日前,沉寂已久的 Black Forest Labs 再度发力,开源新一代图像生成与编辑模型 FLUX.2。2024 年 FLUX.1 横空出世,在生成人物、尤其是真实人物的场景时,达到了接近真人实拍
下一页