首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
OpenBayes 官方教程
OpenBayes贝式计算
创建于2024-02-01
订阅专栏
本专栏主要发布 OpenBayes 官方教程,帮助用户快速上手
等 2 人订阅
共72篇文章
创建于2024-02-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
教程上新丨一键部署Gemma 4 31B,最高256K上下文,能力媲美Qwen3.5 397B
Google DeepMind开源Gemma 4系列模型,基于与Gemini 3同源技术,以较小参数规模跻身AI排行榜前三。该系列包含多个尺寸模型,覆盖移动端到高性能场景。
低功耗实时交互:Granite 4.0 轻量级语音模型新基座;OmniCoder-9B 跨语言映射,实现补全一致性
公共资源速递 7 个公共教程: LTX-2.3-turbo 视频生成器 Voxtral-4B-TTS-2603 多语言语音生成 Cohere Transcribe:生产环境下的开源语音识别利器
教程上新丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署
近年来,大模型不断向更强推理能力与更高推理效率演进,如何在保持模型表达能力的同时提升复杂问题求解质量,已经成为行业关注的核心方向。
教程上新丨华中科大与小红书 hi lab 开源 dots.mocr,SOTA 级 OCR 模型完美还原文档结构,图形也能转 SVG
面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
NVIDIA在GTC2026大会上重点推出PhysicalAI概念,强调AI与物理世界的深度融合。大会发布多个模型
教程上新丨基于 GPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件
在 NVIDIA GTC 2026 期间,黄仁勋对 OpenClaw 的高度评价为其热度又添了一把柴——OpenClaw 现在是人类历史上最大、最受欢迎、最成功的开源项目,这绝对是下一个 ChatGP
教程上新丨微软开源3D生成模型TRELLIS.2,3秒生成高分辨率的全纹理资产
过去数年,生成式 AI 已经在 2D 内容——图像、视频、文本上实现了规模化应用,但 3D 生成却始终是那块看似近在眼前、却迟迟难以跨越的高地,因其不仅是维度的提升,更是对表示方式、学习目标和工程可用
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
当生成式 AI 不再局限于「生成文字」,而是开始真正「发出声音」,语音就从信息通道升级为可编程、可塑造的表达媒介。
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
在数字化浪潮席卷各行各业的今天,大量信息仍然以图片、扫描件、PDF 甚至手写文稿的形式存在。如何让机器「读懂」这些非结构化的视觉内容,并将其转化为可编辑、可检索、可分析的文本数据?这正是 OCR(Op
教程上新|微信AI团队提出扩散语言模型WeDLM,相较vLLM部署AR模型实现3倍推理加速
在规模化部署和商业落地场景中,推理速度的权重日益提升,甚至在许多情况下超过了单纯的模型参数量,成为决定其工程价值的关键因素。
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵
教程上新| 腾讯混元开源端侧翻译工具HY-MT1.5,1.8B模型仅需1G内存
在机器翻译领域,传统的高性能模型往往面临两个核心难题。对于主流语言,闭源商业模型效果出众但调用成本高,模型参数量动辄百亿级别,需要高昂的算力支持,难以在手机等消费级设备上部署。另一方面,对于数据稀缺的
教程上新丨基于AI手势识别,仅用CPU即可定制形态多变的3D圣诞树
装饰圣诞树几乎成了每个家庭迎接节日时不可或缺的一环,彩灯一圈圈绕上树枝,挂件、照片慢慢填满空隙,灯亮起的那一刻,节日的氛围也随之到位。 随着圣诞节临近,小贝也为大家置办了一棵「赛博圣诞树」。3D Ch
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话
近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍
在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 202
教程上新丨图像生成新SOTA,FLUX.2可同时参考10张图,实现超高角色/风格一致性
日前,沉寂已久的 Black Forest Labs 再度发力,开源新一代图像生成与编辑模型 FLUX.2。2024 年 FLUX.1 横空出世,在生成人物、尤其是真实人物的场景时,达到了接近真人实拍
教程上新丨美团开源视频生成模型LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型
世界模型旨在理解、模拟与预测复杂的现实世界环境,是人工智能在真实场景中实现有效应用的重要基础。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,因而被视为构建世界
教程上新丨目标检测迈入「全局感知」时代:清华大学等发布 YOLOv13,实现速度、精度双突破
在自动驾驶、工业质检、安防监控等需要「毫秒级反应」的应用场景中,实时目标检测始终是一条极具挑战的技术赛道。过去十年里,YOLO 系列凭借轻量高效的架构成为该领域的主流方案,从最初的 YOLO 到近年的
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。 当业界不断探索如何优化计算效率时,
教程上新丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
传统的高质量 TTS(文本转语音)模型一直以来都面临着几个核心困境:它们往往对计算资源和云端服务有较高要求,由此产生的高昂成本使得小型企业和个人开发者难以承担;更进一步,这些模型大多需要输入数十分钟甚
下一页