MedGemma 1.5:支持高维医学影像、解剖定位等多种功能;Patient Churn Prediction:面向医疗保健领域的分类数据集

41 阅读6分钟

公共资源速递

5 个公共数据集:

  • CCTV Incident 跌倒检测数据集

  • Patient Segmentation 患者分类数据集

  • Hand Gestures Labbled 手势汽车游戏数据集

  • RealTimeFaceSwap-10k 视频通话伪造数据集

  • Patient Churn Prediction 患者流失预测数据集

8 个公共教程:

  • Triton 编译器教程

* DiagGym 诊断智能体

  • TRELLIS.2 3D 生成 Demo

  • WeDLM 高效大语言模型解码框架

  • MedGemma 1.5 多模态 AI 医疗模型

* FLUX.2-klein-4B:极速图像生成模型

  • Pocket-TTS:高质量轻量级流式 TTS 系统

* vLLM+Open WebUI 部署 Nemotron-3 Nano

访问官网立即使用: openbayes.com

公共数据集

1. CCTV Incident 跌倒检测数据集

CCTV Incident 是一个开放式合成数据集,专门用于计算机视觉任务中的跌倒检测、姿态估计和事故监控,旨在从 CCTV 俯视视角进行分析,支持模型理解人类姿态,并准确区分站立和跌倒的个体。

在线使用:

***go.openbayes.com/m4WXY


图片

数据集示例

2. Patient Segmentation 患者分类数据集

Patient Segmentation 是一个面向医疗分析与营销的患者分类数据集。数据集包含 2,000 个患者记录,包括人口统计信息、健康指标、医疗使用情况、保险与参与情况,旨在通过分析患者信息,将患者分成有意义的群体,以提高个性化护理和营销的效果。

在线使用:

go.openbayes.com/r4IsF

3. Hand Gestures Labbled 手势汽车游戏数据集

该数据集共包含 330 张手势图像,覆盖 4 类手势动作,各类别样本数量分别为 left(123 张)、mvefrd(137 张)、right(174 张)、stop(176 张)。

在线使用:

go.openbayes.com/qdOE4

4. RealTimeFaceSwap-10k 视频通话伪造数据集

该数据集包含 1,636 个目标视频片段,2,000 张用于人脸交换的来源照片和 9,772 个使用人脸交换模型生成的深度伪造视频,旨在为视频伪造检测提供基础数据支持。

在线使用:

go.openbayes.com/9QTWO

5. Patient Churn Prediction 患者流失预测数据集

该数据集包含 2,000 条患者记录,覆盖患者的人口统计信息,服务利用率指标,患者满意度指标,财务及参与因素,旨在帮助识别有流失风险的患者,以便于提前采取保留措施。

在线使用:

go.openbayes.com/7pBpv

公共教程

1. Triton 编译器教程

Triton 是一种用于并行编程的语言和编译器,旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在 GPU 硬件上以最大吞吐量运行。本项目是一套完整的 Triton 学习教程,涵盖了从基础到高级的各个方面,包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。

在线运行:

go.openbayes.com/lw3JM

2. DiagGym 诊断智能体

DiagAgent 是由上海交通大学和上海人工智能实验室的 AI4Med 团队发布的诊断智能体,能够主动管理诊断轨迹:选择最具信息量的检查、决定何时停止检查并给出准确的最终诊断。与传统医学大模型仅提供一次性答案不同,DiagAgent 可以推荐相关检查并在多轮对话中自适应更新诊断,只有在获得足够信息时才给出最终诊断。

在线运行:

go.openbayes.com/7YQLf

图片

项目示例


3. TRELLIS.2 3D 生成 Demo

TRELLIS.2 由 Microsoft 团队开源发布,面向单张图像生成高质量 3D 资产与纹理化任务。项目提供从输入图像到 3D 形状与材质的端到端流程,并配套可交互的 Web Demo,便于快速体验与导出资产。聚焦提升几何细节与纹理一致性,支持多种分辨率与级联推理配置,适用于 3D 内容生产、快速原型与创意探索等场景。

在线运行:

go.openbayes.com/GPDWb

图片

项目示例

4. WeDLM 高效大语言模型解码框架

WeDLM是由腾讯推出的高效大语言模型解码框架,旨在为下一代 AI 对话系统提供极速、智能且高度自适应的语言生成体验。该框架采用了创新的窗口并行解码架构,在保持高质量文本生成的同时,实现了显著的速度提升。其核心技术突破在于通过熵阈值决策与位置惩罚机制的结合,彻底解决了传统自回归解码在长序列生成中的速度瓶颈。

在线运行:

go.openbayes.com/NGzhi

图片

项目示例

5. MedGemma 1.5 多模态 AI 医疗模型

MedGemma 1.5 是由谷歌开源的多模态 AI 医学模型,专为处理医学影像和文本数据设计。模型支持高维医学影像(如 CT 和 MRI)、全切片病理影像、纵向影像分析、解剖定位、医学文档理解和电子健康记录(EHR)解读等功能。模型基于 SigLIP 图像编码器和强大的语言模型,使用多种医学数据进行预训练,包括影像、文本和实验室报告。

在线运行:

go.openbayes.com/8ufT5

图片

项目示例

6. FLUX.2-klein-4B:极速图像生成模型

FLUX.2-klein-4B 是由 Black Forest Labs (BFL) 推出的最新一代极速图像生成模型。作为 FLUX.2 系列中速度最快的蒸馏模型,它在一个紧凑的架构中统一了生成和编辑功能,拥有 40 亿参数(4B),能够在消费级显卡(约 13GB 显存)上运行。该模型采用 Rectified Flow Transformer 架构,实现了亚秒级(Sub-second)的端到端推理速度,专为需要实时生成且不牺牲质量的应用场景设计。

在线运行:

go.openbayes.com/KOkFI

图片

项目示例

7. Pocket-TTS:高质量轻量级流式 TTS 系统

Pocket-TTS 是由 Kyutai 实验室发布的极轻量化语音合成模型。该模型专注于低延迟和流式输出,旨在为资源受限的环境或需要实时交互的场景(如 AI 助手)提供高质量的语音生成能力。采用了端到端的优化架构,在保证音质的同时,极大地提升了推理速度。相比传统的庞大 TTS 系统,它不仅体积更小,且支持实时流式推理,特别适合在高性能算力容器上进行快速部署与交互式应用。

在线运行:

go.openbayes.com/Zzj00

图片

项目示例

8. vLLM+Open WebUI 部署 Nemotron-3 Nano

Nemotron-3-Nano-30B-A3B-BF16 是 NVIDIA 从零开始训练的大型语言模型 (LLM),旨在成为一个统一的模型,同时适用于推理和非推理任务。由 NVIDIA Corporation 发布的。Nemotron-3-Nano-30B-A3B-BF16 适用于开发人员设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 应用。

在线运行:

go.openbayes.com/LUA9Q

图片

项目示例