首页
AI Coding
AIDP
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
OpenBayes 官方教程
OpenBayes贝式计算
创建于2024-02-01
订阅专栏
本专栏主要发布 OpenBayes 官方教程,帮助用户快速上手
暂无订阅
共58篇文章
创建于2024-02-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍
在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 202
教程上新丨图像生成新SOTA,FLUX.2可同时参考10张图,实现超高角色/风格一致性
日前,沉寂已久的 Black Forest Labs 再度发力,开源新一代图像生成与编辑模型 FLUX.2。2024 年 FLUX.1 横空出世,在生成人物、尤其是真实人物的场景时,达到了接近真人实拍
教程上新丨美团开源视频生成模型LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型
世界模型旨在理解、模拟与预测复杂的现实世界环境,是人工智能在真实场景中实现有效应用的重要基础。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,因而被视为构建世界
教程上新丨目标检测迈入「全局感知」时代:清华大学等发布 YOLOv13,实现速度、精度双突破
在自动驾驶、工业质检、安防监控等需要「毫秒级反应」的应用场景中,实时目标检测始终是一条极具挑战的技术赛道。过去十年里,YOLO 系列凭借轻量高效的架构成为该领域的主流方案,从最初的 YOLO 到近年的
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。 当业界不断探索如何优化计算效率时,
教程上新丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
传统的高质量 TTS(文本转语音)模型一直以来都面临着几个核心困境:它们往往对计算资源和云端服务有较高要求,由此产生的高昂成本使得小型企业和个人开发者难以承担;更进一步,这些模型大多需要输入数十分钟甚
教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解
一直以来,将格式各异的数字文档准确转换为机器可读的结构化数据是一个技术核心挑战。文档布局的复杂多样性、以及其中包含的表格、图片等视觉元素,往往导致传统 OCR 系统的识别准确性难以满足实际需求。 现有
教程上新丨百倍提速,中科院团队发布首个国产类脑脉冲大模型SpikingBrain-1.0,推理效率数量级提升
人工智能的快速发展几乎都离不开一个核心架构——Transformer。自从 2017 年被提出以来,Transformer 以其并行化的计算能力和强大的建模效果,成为大模型架构的主流标准。无论是 GP
教程上新丨41个案例中的生成成功率达100%,RFdiffusion2 基于化学反应实现原子级别蛋白质生成
此前,生成式蛋白质设计模型 RFdiffusion 主要通过对理想活性位点的描述,实现精确固定位点的蛋白质结构生成。然而,该方法存在难以解决的 2 大局限: 活性位点几何形状只能在残基级别指定,研究人
教程上新丨ACL机器翻译大赛30个语种摘冠,腾讯Hunyuan-MT-7B支持33种语言翻译
在大学寝室里,舍友与家人打电话时会不自觉换成方言模式;旅游时街边小店的老板和食客聊得热火朝天,你却听得一头雾水;甚至和朋友分享小秘密时,也会用方言来屏蔽外人。这种交流方式,也常被网友戏称为「方言加密」
教程上新 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界
开学季特惠 📚 新学期不止新气象,更有新福利! OpenBayes 开学季特惠再次上线,最高可以获得 20% 超值返现金额哦~ 微软最新开源的 VibeVoice-1.5B 模型,在 TTS 技术领域
OpenBayes 教程上新丨Qwen-Image 刷新图像编辑 SOTA,实现精准中文渲染
近期,阿里通义千问团队开源首个图像生成基础模型 Qwen-Image, 参数量达 20B,采用全新 MMDiT 架构,刷新了图像生成模型 SOTA。 Qwen-Image 专注于提升 AI 在两大核心
OpenBayes 教程上新丨Mistral AI首个开源音频模型Voxtral,24B与3B版本兼顾多场景语音深度理解
语音作为「人类最自然的交互方式」,正逐渐成为人机交互的核心场景,随着语音互动的普及,音频模型也在针对需求不断创新优化。 然而快速发展的同时伴随着市场供给的两极分化:低成本开源模型较容易出现错误率高、语
OpenBayes 在线教程丨狂揽 2.6k stars,MonkeyOCR-3B 在英文文档解析任务上超越 72B 模型,性能达 SOTA
如今,OCR(光学字符识别)技术早已不再局限于文字识别,而正逐步演化为更复杂的文档解析系统。从最初的简单字符提取,到近年来兴起的多模态大模型,OCR 已融入了版面理解、语义识别与结构还原等任务,在文档
OpenBayes 教程上新丨9 秒处理一张图!In-Context Edit 高效图像编辑框架上线
In-Context Edit:指令驱动图像生成与编辑」已上线 OpenBayes 公共教程,仅需极少的文本指令即可实现精准的图像修改,为图像处理和内容创作提供了更多可能性,一键克隆即可快速体验~
OpenBayes 教程上新丨ControlNet 作者开源新作!低门槛生成长视频,FramePack 革新视频生成
FramePack 是由 ControlNet 作者、斯坦福大学博士生张吕敏 (Lvmin Zhang) 团队近期开源的视频生成框架,它通过创新的神经网络架构,有效解决了传统视频生成中显存占用高、漂移
OpenBayes 教程上新丨Qwen3狂揽近20k star,网友实测:比Llama更快解决更难问题
4 月 29 日凌晨,Qwen3 模型「家族」终于正式亮相,共 8 款混合推理模型全部开源, 仅仅一天的时间便在 GitHub 斩获近 20k stars。
Openbayes 教程上新丨多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务
字节跳动 Intelligent Creation 团队利用扩散 Transformer 模型本身具备的上下文生成能力,并以 FLUX 为基础模型提出了 UNO 模型。
下一页