OpenBayes 一周速览丨DiffuCode-7B-cpGRPO迭代式降噪方式可不按顺序生成代码;NextCoder数据集上线,超万条指令、对话样本

98 阅读5分钟

公共资源速递 This Weekly Snapshots !

5 个公共数据集:

  • NextCoder 代码编辑数据集

  • X-ray 胸部肺炎 X 光图像数据集 

  • Psych-101 心理知识问答数据集 

  • Bird Species 鸟类分类图像数据集

  • Leukemia lmage 白血病图像数据集

1 个公共模型:

  • GLM-4.1V-9B-Thinking

5 个公共教程:

  • Jan-Nano:紧凑型研究专用语言模型

  • Voxtral-Mini-3B-2507 语音理解模型 Demo

  • LAMMPS:以单晶铝为例,模拟材料单轴拉伸

  • isometric skeumorphic 3d bnb 文本到 3D 生成

  • DiffuCode-7B-cpGRPO:基于掩码扩散技术的代码生成模型

访问官网立即使用:openbayes.com

公共数据集

  1. NextCoder 代码编辑数据集

NextCoder 包含约 381k 条单轮指令样本(NextCoderDataset)和 57,000 条多轮对话样本(Conversational 版本),涵盖 Python、Java、C++、C、Rust、JavaScript、Go、Kotlin 等 8 种语言。数据通过 GPT‑4o 和 LLaMA‑3.3‑70B‑Instruct 模型生成。

  • 在线使用:

go.openbayes.com/tVwRx

  1. X-ray 胸部肺炎 X 光图像数据集

X-Ray Images for Chest Pneumonia 数据集包含约 5,800 张胸部 X 光图像,分为正常和肺炎(细菌性和病毒性)两类。该数据集包含 2 个类别的图像:肺炎(Pneumonia)图像和正常(Normal)图像。

  • 在线使用:

go.openbayes.com/IuVkJ

数据集示例

  1. Psych-101 心理知识问答数据集

Psych-101 数据集包含来自 160 个心理实验、60,092 名参与者的逐次试验数据,共计 10,681,650 个选择。该数据集旨在帮助开发自然语言处理模型进行心理学知识的问答任务,推动心理学相关的 AI 研究,特别是在心理学教育、情感分析和心理健康应用中的应用。

  • 在线使用:

go.openbayes.com/obQZO

  1. Bird Species 鸟类分类图像数据集

Bird Species 数据集包含 7 个不同物种,每个物种包含 1,200 张图片。每个物种的图像包含该物种鸟类的羽毛图案、颜色和身体结构。

  • 在线使用:

go.openbayes.com/mmeMK

数据集示例

  1. Leukemia Image 白血病图像数据集

Leukemia 数据集包含了约 6,778 张细胞的图像,其中正常细胞(3,389 张)和白血病细胞(3,389 张)。急性淋巴细胞白血病(ALL)是最常见的儿童癌症类型,约占儿童癌症的 25%。这些细胞是从显微图像中分割出来的,基本事实标签由肿瘤专家注释。

  • 在线使用:

go.openbayes.com/4vAiy

数据集示例

公共模型

  1. GLM-4.1V-9B-Thinking
  • 发布机构:智谱 AI 

GLM-4.1V-9B-Thinking 专为复杂认知任务设计,支持图像、视频、文档等多模态输入。该模型在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力,达到 10B 参数级别的视觉语言模型的最强性能,在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。

  • 在线使用:

go.openbayes.com/pNtMM

公共教程

1.Jan-Nano:紧凑型研究专用语言模型

Jan-Nano 专为深度研究任务设计,并针对 Model Context Protocol(MCP)服务器优化,便于与多种研究工具和数据源高效集成。

  • 在线运行:

go.openbayes.com/hJqzy

项目示例

2. Voxtral-Mini-3B-2507 语音理解模型 Demo

Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。该模型性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音交互的普及。

  • 在线运行:

go.openbayes.com/17FOu

项目示例

  1. LAMMPS:以单晶硅铝为例,模拟材料单轴拉伸

LAMMPS 是一种经典的分子动力学仿真代码,专注于材料建模。它旨在在并行计算机上高效运行,并且易于扩展和修改。本次教程主要通过改变材料的晶格常数,实现模拟对施加材料单轴应变的情况,后续再计算并绘制材料的应变应力曲线。

  • 在线运行:

go.openbayes.com/0oyiH

  1. isometric skeumorphic 3d bnb 文本到3D 生成

isometric-skeumorphic-3d-bnb 模型在处理现实世界物体与建筑地标时表现突出,能将其转化为极具辨识度的图标风格插图。其核心优势在于对视觉元素的精细把控:通过优化照明参数模拟自然光影层次,借助严格的等距透视规则呈现空间关系,同时统一样式细节,以此确保生成内容的视觉一致性。该模型依托 fal.ai 平台的 fal-ai/flux-lora-fast-training 框架训练而成,兼具快速生成能力与高质量输出表现,广泛适用于游戏设计、建筑可视化、及产品展示等领域。

  • 在线运行:

go.openbayes.com/jPQgy

5. DiffuCode-7B-cpGRPO:基于掩码扩散技术的代码生成模型

DiffuCoder-7B-cpGRPO 旨在通过迭代式降噪的方式进行代码的生成与编辑,而非传统的从左到右的自回归(Autoregressive)生成。该模型的一个显著特点是它不严格依赖从左到右的生成方式来生成代码,这使得它在主流编程跑分测试中,相较于其他基于扩散的编程模型,得分提高了 4.4%。这种非顺序性的代码生成能力,使其在代码编辑和生成任务中展现出更高的灵活性和效率。

  • 在线运行:

go.openbayes.com/FWI4P

项目示例