强化文字渲染与海报排版:百度开源文生图模型 ERNIE-Image-Turbo;告别大模型「遗忘」:微软 OpenMementos 上下文压缩训练数据集上线

0 阅读5分钟

公共资源速递

5 个公共数据集:

  • PanScale 遥感全色锐化数据集

  • MIA多步推理与决策轨迹数据集

  • ParseBench 文档解析能力评测数据集

  • OpenMementos 上下文记忆压缩数据集

  • SOHL-multidish-yolo 多菜印度食品检测数据集

5 个公共教程:

  • 从零构建神经网络

  • SAM3.1**:视频多目标跟踪与分割

  • Qwen3.6-35B-A3B:智能体编程利器

  • ERNIE-Image-Turbo:文本生成图像模型

  • Denoising Diffusion Probabilistic Models:扩散生成模型与 WaveGrad 教程

访问官网立即使用: openbayes.com

公共数据集

1. PanScale 遥感全色锐化数据集

该数据集包含包含 7,559 对多光谱(MS)与全色(PAN)图像,采用 8 位 TIFF 格式。数据覆盖 jilin、landsat、skysat 等多个子集,并扩展出 fjilin、flandsat、fskysat 等跨尺度版本,支持从同尺度到多尺度(最高 4.0 倍)场景的系统评估。每条数据由 4 通道多光谱图像**与 1 通道全色图像组成。

在线使用:

go.openbayes.com/cfLei

屏幕截图 2026-04-22 183149

项目示例

2. MIA 多步推理与决策轨迹数据集

MIA 多步推理与决策轨迹数据集是由华东师范大学、上海创新研究院和哈尔滨工业大学于 2026 年 4 月联合发布的一个用于训练和评估具备长期记忆与任务执行能力的智能体的数据集。该数据集包含约 2.1 万条推理轨迹数据,涵盖问题、规划、搜索与执行全过程,适用于 Agent 推理与强化学习研究。

在线使用:

go.openbayes.com/GrRwt

3. ParseBench 文档解析能力评测数据集

该数据集包含约 2,000 个经人工验证和标注的页面和五个维度的 169,011 条测试规则。这些页面取自公开的企业文档,涵盖保险、金融、政府和其他领域,涵盖 PDF、扫描图像及包含表格与版面结构等多类型页面,并提供标准化解析结果与人工标注对齐。

在线使用:

go.openbayes.com/wd2Bs

4. OpenMementos 上下文记忆压缩数据集

该数据集基于 OpenThoughts 推理数据构建,包含 228,557 条结构化推理轨迹,其中数学 123,333 条,科学 61,485 条,编程 43,739 条,每条数据的平均句子数为 187 句,旨在训练模型进行上下文压缩与持续推理,从而支持在有限上下文窗口下完成复杂多步推理任务。

在线使用:

go.openbayes.com/zP5O0

5. SOHL-multidish-yolo 多菜印度食品检测数据集

该数据集包含 377 张带标注图像,对应 377 条标注数据,覆盖 16 类食品类别,每张图像包含 2–6 个食物目标,具有重叠、多尺度与复杂布局等特点。数据以 YOLO 格式组织,包括图像文件与对应的边界框标注文本。

在线使用:

go.openbayes.com/QCtqM

公共教程

1. 从零构建神经网络

该教程旨在指导用户仅依赖 NumPy 库,从零开始纯手工搭建一个简单的神经网络框架,全面覆盖了从神经元、权重、前向传播到隐藏层、激活与损失函数等核心概念。本教程还能帮助用户从原理层面理解深度学习模型的构建方式,而不仅仅停留在调用框架接口的层面。

在线运行:

go.openbayes.com/QIfRx

2. SAM3.1:视频多目标跟踪与分割

SAM3.1(Segment Anything Model 3.1)是一个面向视频的开放词汇目标跟踪与分割系统。该模型通过引入对象复用(Object Multiplexing)技术,实现了高效的多目标视频跟踪。

在线运行:

go.openbayes.com/rENq4

图片

项目示例

3. Qwen3.6-35B-A3B:智能体编程利器

Qwen3.6-35B-A3B 是一款总参数量 350 亿(激活 30 亿)的多模态 MoE 大模型,采用 256 专家架构与混合注意力机制,并运用多词元预测(MTP**)提升推理效率。该模型内置视觉编码器以支持图视频理解,核心具备智能体编程、历史思维链保留及原生工具调用能力,原生支持 262K 上下文,最高可扩展至逾百万词元。

在线运行:

go.openbayes.com/XkzIT

图片

项目示例

4. ERNIE-Image-Turbo:文本生成图像模型

ERNIE-Image-Turbo 是由百度 ERNIE-Image 团队于 2026 年 4 月 发布的开源文生图模型。该模型基于与 ERNIE-Image 相同的单流 Diffusion Transformer 架构,并针对快速推理场景进行了蒸馏优化,能够在较少步数下完成较高质量的图像生成。官方说明中,ERNIE-Image-Turbo 重点强调了复杂指令跟随、文字渲染、海报排版、结构化图像生成与多风格覆盖等能力,适合用于海报设计、插画生成、界面视觉草图和内容创作等场景。

在线运行:

go.openbayes.com/C6fvK

图片

项目示例

5. Denoising Diffusion Probabilistic Models:扩散生成模型与 WaveGrad 教程

diffusion_models 是一个围绕扩散生成模型原理与实现展开的教程型项目。项目内容聚焦于去噪分数匹配、Langevin dynamics、Denoising Diffusion Probabilistic Models、Denoising Diffusion Implicit Models 以及 WaveGrad 等主题,适合作为理解扩散模型基础机制的入门材料。

在线运行:

go.openbayes.com/ETV2l