OpenBayes 一周速览丨OmniGen2「双轨架构」实现文本/图像分工协作,效果直逼GPT-4O;OCRBench文本识别基准数据集发布,含1K问答对

0 阅读7分钟

公共资源速递

4 个公共数据集:

  • ReasonMed 医学推理数据集

  • Miriad-5.8M 医学问答数据集

  • WebClick 网页理解基准数据集

  • OCRBench 文本识别基准数据集

2 个公共模型:

  • MiniCPM4-8B

  • Kimi-Dev-72B-GGUF

9 个公共教程:

深度估计 * 2

3D 生成 * 3

图像生成与处理 * 4

访问官网立即使用:openbayes.com

公共数据集

  1. ReasonMed 医学推理数据集

ReasonMed 数据集包含 37 万个高质量的问答示例,覆盖临床知识、解剖学、遗传学等多个领域。数据从 3 个大型语言模型(Qwen-2.5-72B、 DeepSeek-R1-Distill-Llama-70B 和 HuatuoGPT-o1-70B)生成的 175 万条初始推理路径中提取,并经过严格的多智能体验证和优化流程提炼而成。

  • 直接使用:

go.openbayes.com/r6Zn7

  1. Miriad-5.8M 医学问答数据集

Miriad-5.8M 数据集包含 582 万个医学问答对,涵盖了从基础科学到临床实践的各个方面,MIRIAD 提供了结构化的高质量问答对,支持 RAG、医学检索、幻觉检测和指令调整等各种下游任务。

  • 直接使用:

go.openbayes.com/3SRO8

  1. WebClick 网页理解基准数据集

WebClick 数据集包含来自 100 多个网站的 1,639 张英文网页截图,这些截图配有精确标注的自然语言指令和像素级点击目标。

  • 直接使用:

go.openbayes.com/aCa08

  1. OCRBench 文本识别基准数据集

OCRBench 数据集是多模态大型模型光学字符识别(OCR)的评估基准,旨在评估大型多模态模型(LMM)在不同文本相关任务中的 OCR 能力。该数据集包含 1,000 个手动筛选和校正的问答对,这些问答对来自 5 项具有代表性的文本相关任务:文本识别、场景文本中心、文档导向、关键信息(KIE)和手写数学表达式(HMER)。

  • 直接使用:

go.openbayes.com/IoT7O

公共模型

  1. MiniCPM4-8B
  • 发布机构:面壁智能(OpenBMB)

MiniCPM 4.0 通过稀疏架构、量化压缩、高效推理框架等技术,实现了低计算成本下的高性能推理,特别适合长文本处理、隐私敏感场景和边缘计算设备部署。MiniCPM4-8B 在处理长序列时,相较于 Qwen3-8B 显示出明显更快的处理速度。

  • 直接使用:

go.openbayes.com/wO7Hu

  1. Kimi-Dev-72B-GGUF
  • 发布机构:月之暗面团队

Kimi-Dev-72B-GGUF 在 SWE-bench Verified 编程基准测试中取得了 60.4% 的性能表现,超越了其他开源模型,成为新的开源模型标杆。该模型通过大规模强化学习进行优化,能够在 Docker 环境中自动修复真实代码仓库,并且只有在完整测试套件通过后才会获得奖励,这确保了模型输出的正确性和鲁棒性。

  • 直接使用:

go.openbayes.com/aFHPE

公共教程

深度估计 * 2

  1. UniDepthV2:通用单目度量深度估计

UniDepthV2 能够跨域仅从单张图像重建度量三维场景。与现有的 MMDE 范式不同,UniDepthV2 在推理时直接从输入图像预测度量三维点,无需任何额外信息,力求实现通用且灵活的 MMDE 解决方案。

  • 在线运行:

go.openbayes.com/DNKAi

Demo 界面示例

2. MonSter:融合单目深度与立体视觉释放潜力

MonSter 能够有效利用单目深度估计和立体匹配的互补优势,从而充分释放立体视觉的潜力。它在病态区域和精细结构等具有挑战性的区域显著提升了立体匹配的深度感知性能。值得注意的是,MonSter 在五个最广泛使用的排行榜(包括 SceneFlow、KITTI 2012、KITTI 2015、Middlebury 和 ETH3D)中排名第一。此外,在零样本泛化方面,MonSter 也显著且持续地优于最先进的方法,使其成为当前精度和泛化能力最佳的模型。

  • 在线运行:

go.openbayes.com/MP2Gi

3D 生成 * 3

  1. VGGT:通用 3D 视觉模型

VGGT 可在几秒钟内从一个、几个或数百个视图中直接推断场景的所有关键 3D 属性,包括外部和内部摄像机参数、点图、深度图和 3D 点轨迹。它还兼具简单性和高效性,可在一秒内完成重建,甚至超越了需要借助视觉几何优化技术进行后处理的替代方法。

  • 在线运行:

go.openbayes.com/WjZt0

项目示例

  1. Direct3D-S2:高分辨率 3D 生成框架

Direct3D‑S2 框架基于稀疏体积表示和创新的空间稀疏注意力(SSA)机制,大幅提升扩散变换器(DiT)的计算效率,显著降低训练成本。Direct3D-S2 在生成质量和效率上均超越现有方法,为高分辨率 3D 内容创作提供强大的技术支持。

  • 在线运行:

go.openbayes.com/Lebnc

项目示例

  1. Hunyuan3D-2.1:支持物理渲染纹理的 3D 生成模型

Hunyuan3D-2.1 通过两个关键性的创新来推动尖端 3D 生成技术的发展:完全开源框架与基于物理的渲染(Physically-Based Rendering,PBR)纹理合成。首个支持基于物理渲染的材质生成模型,基于物理规律的漫反射、金属度、法线贴图等完整材质系统,实现皮革、青铜等材质的电影级光影交互,满足游戏资产、工业设计等生产级精度需求。同时,完整开放数据处理、训练推理代码、模型权重及架构,支持社区开发者微调下游任务,为学术研究提供可复现基线,为工业落地降低重复开发成本。

  • 在线运行:

go.openbayes.com/eFlQH

Demo 界面示例

图像生成与处理 * 4

  1. Step1X-Edit:图像编辑神器

Step1X-Edit 采用多模态 LLM 来处理参考图像和用户的编辑指令,提取了潜在嵌入并将其与扩散图像解码器集成以获得目标图像。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

  • 在线运行:

go.openbayes.com/lVQTW

项目示例

  1. OmniGen2:探索高级多模态生成

OmniGen2 旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与 OmniGen v1 不同,OmniGen2 为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得 OmniGen2 能够在现有的多模态理解模型基础上进行构建,而无需重新适应 VAE 输入,从而保留了原有的文本生成能力。其核心创新在于双路径架构和自我反思机制,成为当前开源多模态模型的新标杆。

  • 在线运行:

go.openbayes.com/iYRME

项目示例

  1. Chain-of-Zoom:超分辨率图像放大 Demo

Chain-of-Zoom 框架解决了现代单图像超分辨率(SISR)模型在要求放大远超该范围时会失效的问题。在 CoZ 框架中封装的标准 4 倍扩散 SR 模型能实现超过 256 倍的放大,同时保持高感知质量和保真度。

  • 在线运行:

go.openbayes.com/AKRXl

项目示例

  1. FLUX.1-Kontext-dev:文本驱动的一键图像编辑

FLUX.1 Kontext 的图像编辑是广泛意义上的图像编辑,不仅支持图像局部编辑(对图像中的特定元素进行针对性修改,而不影响其余部分),还可以实现角色一致性(保留图像中的独特元素如参考角色或物体,使其在多个场景和环境中保持一致)。

  • 在线运行:

go.openbayes.com/yrl3i

项目示例