GLM-4.7-Flash:高性能、高吞吐轻量化的 MoE 推理模型;Delhi Pollution AQl:超过二十万条小时环境观测样本

0 阅读7分钟

公共资源速递

6 个公共数据集:

  • Sonar Signal 水下声呐信号数据集

  • Diabetes Mexico 墨西哥糖尿病数据集

  • Vehicles OpenImages 车辆图像数据集

  • LightOnOCR-mix-0126 文本转录数据集

  • Delhi Pollution AQI 德里空气质量数据集

  • Chest X-ray Pneumonia 胸部 X 光肺炎数据集

7 个公共教程:

  • DeepSeek-OCR-2 视觉因果流

* Ovis-Image:高质量图像生成模型

  • vLLM+Open WebUI 部署 GLM-4.7-Flash

  • Step3-VL-10B:多模态视觉理解与图文对话

  • TurboDiffusion:图像与文本驱动视频生成系统

* LightOnOCR-2-1B 轻量级高性能端到端 OCR 模型

* Personaplex-7B-v1:实时对话与角色定制语音接口

访问官网立即使用: openbayes.com

公共数据集

1. Sonar Signal 水下声呐信号数据集

Sonar Signal 是一个用于水下物体分类的声呐信号数据集。该数据集适用于二分类任务,目标是区分声呐信号是由岩石还是矿井反射而来。该数据集总计 207 个样本,每个样本包含 60 个连续数值特征。

在线使用:

go.openbayes.com/RJhGo

2. Diabetes Mexico 墨西哥糖尿病数据集

Diabetes Mexico 是由墨西哥的国家公共卫生研究所发布的糖尿病数据集,旨在评估墨西哥人群中与糖尿病相关的代谢风险特征。该数据集包含墨西哥个体的社会人口学、人体测量及生物化学信息,主要变量涵盖调查标识符、性别、年龄、居住城市,以及体重、身高、体重指数等体格指标,并包括尿酸、白蛋白、肌酐、总胆固醇、HDL/LDL 胆固醇、甘油三酯、血清葡萄糖、胰岛素和糖化血红蛋白等相关生化指标。

在线使用:

go.openbayes.com/gi6tC

3. Vehicles OpenImages 车辆图像数据集

Vehicles OpenImages 来源于 Google 的 OpenImages 大规模公开数据集,专注于车辆检测与定位的图像数据集,旨在支持车辆检测模型的快速高效训练。该数据集包含多种环境、光照条件和视角下的车辆图像,图像预处理为 416×416 分辨率,适用于 YOLO、SSD 和 RetinaNet 等现代目标检测模型提供COCO、YOLO、Pascal VOC 和 TensorFlow 格式的多种注释格式,兼容多种机器学习框架,包含平衡的训练/验证/测试分割,以评估模型性能。

在线使用:

go.openbayes.com/Q61aS



图片

数据集示例

4. LightOnOCR-mix-0126 文本转录数据集

该数据集包含训练集与验证集两部分,每个样本对应一个文档页面的文本转录结果,内容涵盖按自然阅读顺序组织的页面文本(输出格式包括 Markdown、LaTeX 数学公式及 HTML 表格等)以及相应的结构化标记,覆盖段落、标题、列表与表格等多类型页面内容。

在线使用:

go.openbayes.com/SroyH

5. Delhi Pollution AQI 德里空气质量数据集

Delhi Pollution AQI 是一个面向空气质量分析和预测的环境数据集。该数据集提供了德里 NCR 地区主要城市的每小时空气质量和环境数据,适合用于污染分析、时间序列预测和机器学习应用。数据集拥有超过 200,000 条小时观测样本。

在线使用:

go.openbayes.com/IbRsn

6. Chest X-ray Pneumonia 胸部 X 光肺炎数据集

Chest X-ray Pneumonia 是一个从胸部 X 光图像中提取的数值特征数据集。该数据集通过将每张图像转化为结构化的数值特征,包括全局强度统计、纹理描述符(GLCM)、频域特征(FFT)、基于边缘的度量以及局部二值模式(LBP)特征,来支持统计分析和经典机器学习。

在线使用:

go.openbayes.com/IbRsn

公共教程

1. DeepSeek-OCR-2 视觉因果流

DeepSeek-OCR 2 是由 DeepSeek 团队推出的第二代 OCR 模型,通过引入 DeepEncoder V2 架构,实现从固定扫描到语义推理的范式转变。模型采用因果流查询和双流注意力机制,能动态重排视觉 Token,更精准地还原复杂文档的自然阅读逻辑。在 OmniDocBench v1.5 评测中,模型综合得分达到 91.09%,较前代提升显著,同时显著降低了 OCR 识别结果的重复率,为未来构建全模态编码器提供新路径。

在线运行:

go.openbayes.com/C5oYw

图片

项目示例

2. Ovis-Image:高质量图像生成模型

Ovis-Image 是一个高质量图像生成模型系统,由 AIDC-AI 团队发布的 Ovis-Image-7B 高保真文本到图像生成模型构建。该系统采用多尺度 Transformer 编码器与自回归生成架构,在高分辨率图像生成、细节表现及多风格适配能力上表现卓越。通过优化的噪声采样和 classifier-free guidance 技术,Ovis-Image 能够在 1024x1024 分辨率下生成自然、连贯、细节丰富的图像,支持写实、赛博朋克、动漫、科幻等多种风格。

在线运行:

go.openbayes.com/KFcQO

项目示例

3. vLLM+Open WebUI 部署 GLM-4.7-Flash

GLM-4.7-Flash 是智谱 AI 推出的轻量化 MoE 推理模型,兼顾高性能与高吞吐,原生支持思考链(CoT)、工具调用与 Agent 能力。它采用 Mixture of Experts(MoE)架构,通过稀疏激活机制,在保持大模型表达能力的同时,大幅降低单次推理的计算成本。

在线运行:

go.openbayes.com/ItzzP

图片

项目示例

4. Step3-VL-10B:多模态视觉理解与图文对话

Step3-VL-10B 由 StepFun 团队发布,是一款面向多模态理解与复杂推理任务的开源视觉-语言基础模型。STEP3-VL-10B 旨在在参数规模受限的前提下,重新定义多模态模型在效率、推理能力与视觉理解质量之间的平衡。尽管参数规模紧凑,该模型在视觉感知、复杂推理以及人类指令对齐等方面表现出色,在多项基准测试中持续优于同规模模型,并在部分任务上可与参数规模大 10–20 倍的模型相竞争。

在线运行:

go.openbayes.com/LN9xD

图片

项目示例

5. TurboDiffusion:图像与文本驱动视频生成系统

TurboDiffusion是由清华大学团队开发的高效视频扩散生成系统。该项目基于 Wan2.1 架构进行高阶蒸馏,旨在解决大规模视频模型推理速度慢、计算资源消耗大的痛点,实现了极少步数下的高质量视频生成。该系统基于 rCM 蒸馏技术,将 14B 模型 5 秒视频的生成耗时从分钟级压缩至 2-10 秒,实现百倍以上的效率飞跃。支持 720P T2V 与 I2V  任务,在极速生成下依然保持 SOTA 级的视觉连贯性与画质。

在线运行:

go.openbayes.com/8ufT5

图片

项目示例

6. LightOnOCR-2-1B 轻量级高性能端到端 OCR 模型

LightOnOCR-2-1B 是由 LightOn AI 于 2026 年 1 月推出的最新一代端到端视觉语言模型(OCR)。作为 LightOnOCR 系列中的旗舰级版本,它在一个紧凑的架构中统一了文档理解与文本生成功能,拥有 10 亿参数(1B),能够在消费级显卡(约 6GB 显存)上运行。该模型采用 Vision-Language Transformer 架构,并引入了 RLVR 训练技术,实现了极高的识别准确率与推理速度,专为需要处理复杂文档、手写体及 LaTeX 公式的应用场景设计。

在线运行:

go.openbayes.com/uxY9d

7. Personaplex-7B-v1:实时对话与角色定制语音接口

PersonaPlex-7B-v1 是 NVIDIA 于 2026 年 1 月发布的 70 亿参数多模态个性化对话模型,面向实时语音/文本交互、长效角色一致性模拟与多模态感知任务。本 Notebook 基于该模型构建,旨在提供一个支持毫秒级响应的沉浸式角色扮演与多模态交互演示系统。

在线运行:

go.openbayes.com/aM5GU

图片

项目示例