首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
OpenBayes 官方教程
OpenBayes贝式计算
创建于2024-02-01
订阅专栏
本专栏主要发布 OpenBayes 官方教程,帮助用户快速上手
等 1 人订阅
共68篇文章
创建于2024-02-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
NVIDIA在GTC2026大会上重点推出PhysicalAI概念,强调AI与物理世界的深度融合。大会发布多个模型
教程上新丨基于 GPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件
在 NVIDIA GTC 2026 期间,黄仁勋对 OpenClaw 的高度评价为其热度又添了一把柴——OpenClaw 现在是人类历史上最大、最受欢迎、最成功的开源项目,这绝对是下一个 ChatGP
教程上新丨微软开源3D生成模型TRELLIS.2,3秒生成高分辨率的全纹理资产
过去数年,生成式 AI 已经在 2D 内容——图像、视频、文本上实现了规模化应用,但 3D 生成却始终是那块看似近在眼前、却迟迟难以跨越的高地,因其不仅是维度的提升,更是对表示方式、学习目标和工程可用
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
当生成式 AI 不再局限于「生成文字」,而是开始真正「发出声音」,语音就从信息通道升级为可编程、可塑造的表达媒介。
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
在数字化浪潮席卷各行各业的今天,大量信息仍然以图片、扫描件、PDF 甚至手写文稿的形式存在。如何让机器「读懂」这些非结构化的视觉内容,并将其转化为可编辑、可检索、可分析的文本数据?这正是 OCR(Op
教程上新|微信AI团队提出扩散语言模型WeDLM,相较vLLM部署AR模型实现3倍推理加速
在规模化部署和商业落地场景中,推理速度的权重日益提升,甚至在许多情况下超过了单纯的模型参数量,成为决定其工程价值的关键因素。
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵
教程上新| 腾讯混元开源端侧翻译工具HY-MT1.5,1.8B模型仅需1G内存
在机器翻译领域,传统的高性能模型往往面临两个核心难题。对于主流语言,闭源商业模型效果出众但调用成本高,模型参数量动辄百亿级别,需要高昂的算力支持,难以在手机等消费级设备上部署。另一方面,对于数据稀缺的
教程上新丨基于AI手势识别,仅用CPU即可定制形态多变的3D圣诞树
装饰圣诞树几乎成了每个家庭迎接节日时不可或缺的一环,彩灯一圈圈绕上树枝,挂件、照片慢慢填满空隙,灯亮起的那一刻,节日的氛围也随之到位。 随着圣诞节临近,小贝也为大家置办了一棵「赛博圣诞树」。3D Ch
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话
近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍
在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 202
教程上新丨图像生成新SOTA,FLUX.2可同时参考10张图,实现超高角色/风格一致性
日前,沉寂已久的 Black Forest Labs 再度发力,开源新一代图像生成与编辑模型 FLUX.2。2024 年 FLUX.1 横空出世,在生成人物、尤其是真实人物的场景时,达到了接近真人实拍
教程上新丨美团开源视频生成模型LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型
世界模型旨在理解、模拟与预测复杂的现实世界环境,是人工智能在真实场景中实现有效应用的重要基础。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,因而被视为构建世界
教程上新丨目标检测迈入「全局感知」时代:清华大学等发布 YOLOv13,实现速度、精度双突破
在自动驾驶、工业质检、安防监控等需要「毫秒级反应」的应用场景中,实时目标检测始终是一条极具挑战的技术赛道。过去十年里,YOLO 系列凭借轻量高效的架构成为该领域的主流方案,从最初的 YOLO 到近年的
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。 当业界不断探索如何优化计算效率时,
教程上新丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
传统的高质量 TTS(文本转语音)模型一直以来都面临着几个核心困境:它们往往对计算资源和云端服务有较高要求,由此产生的高昂成本使得小型企业和个人开发者难以承担;更进一步,这些模型大多需要输入数十分钟甚
教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解
一直以来,将格式各异的数字文档准确转换为机器可读的结构化数据是一个技术核心挑战。文档布局的复杂多样性、以及其中包含的表格、图片等视觉元素,往往导致传统 OCR 系统的识别准确性难以满足实际需求。 现有
教程上新丨百倍提速,中科院团队发布首个国产类脑脉冲大模型SpikingBrain-1.0,推理效率数量级提升
人工智能的快速发展几乎都离不开一个核心架构——Transformer。自从 2017 年被提出以来,Transformer 以其并行化的计算能力和强大的建模效果,成为大模型架构的主流标准。无论是 GP
下一页