公共资源速递
5 个公共数据集:
-
CCTV Incident 跌倒检测数据集
-
Patient Segmentation 患者分类数据集
-
Hand Gestures Labbled 手势汽车游戏数据集
-
RealTimeFaceSwap-10k 视频通话伪造数据集
-
Patient Churn Prediction 患者流失预测数据集
8 个公共教程:
- Triton 编译器教程
* DiagGym 诊断智能体
-
TRELLIS.2 3D 生成 Demo
-
WeDLM 高效大语言模型解码框架
-
MedGemma 1.5 多模态 AI 医疗模型
* FLUX.2-klein-4B:极速图像生成模型
- Pocket-TTS:高质量轻量级流式 TTS 系统
* vLLM+Open WebUI 部署 Nemotron-3 Nano
访问官网立即使用: openbayes.com
公共数据集
1. CCTV Incident 跌倒检测数据集
CCTV Incident 是一个开放式合成数据集,专门用于计算机视觉任务中的跌倒检测、姿态估计和事故监控,旨在从 CCTV 俯视视角进行分析,支持模型理解人类姿态,并准确区分站立和跌倒的个体。
在线使用:
数据集示例
2. Patient Segmentation 患者分类数据集
Patient Segmentation 是一个面向医疗分析与营销的患者分类数据集。数据集包含 2,000 个患者记录,包括人口统计信息、健康指标、医疗使用情况、保险与参与情况,旨在通过分析患者信息,将患者分成有意义的群体,以提高个性化护理和营销的效果。
在线使用:
3. Hand Gestures Labbled 手势汽车游戏数据集
该数据集共包含 330 张手势图像,覆盖 4 类手势动作,各类别样本数量分别为 left(123 张)、mvefrd(137 张)、right(174 张)、stop(176 张)。
在线使用:
4. RealTimeFaceSwap-10k 视频通话伪造数据集
该数据集包含 1,636 个目标视频片段,2,000 张用于人脸交换的来源照片和 9,772 个使用人脸交换模型生成的深度伪造视频,旨在为视频伪造检测提供基础数据支持。
在线使用:
5. Patient Churn Prediction 患者流失预测数据集
该数据集包含 2,000 条患者记录,覆盖患者的人口统计信息,服务利用率指标,患者满意度指标,财务及参与因素,旨在帮助识别有流失风险的患者,以便于提前采取保留措施。
在线使用:
公共教程
1. Triton 编译器教程
Triton 是一种用于并行编程的语言和编译器,旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在 GPU 硬件上以最大吞吐量运行。本项目是一套完整的 Triton 学习教程,涵盖了从基础到高级的各个方面,包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。
在线运行:
2. DiagGym 诊断智能体
DiagAgent 是由上海交通大学和上海人工智能实验室的 AI4Med 团队发布的诊断智能体,能够主动管理诊断轨迹:选择最具信息量的检查、决定何时停止检查并给出准确的最终诊断。与传统医学大模型仅提供一次性答案不同,DiagAgent 可以推荐相关检查并在多轮对话中自适应更新诊断,只有在获得足够信息时才给出最终诊断。
在线运行:
项目示例
3. TRELLIS.2 3D 生成 Demo
TRELLIS.2 由 Microsoft 团队开源发布,面向单张图像生成高质量 3D 资产与纹理化任务。项目提供从输入图像到 3D 形状与材质的端到端流程,并配套可交互的 Web Demo,便于快速体验与导出资产。聚焦提升几何细节与纹理一致性,支持多种分辨率与级联推理配置,适用于 3D 内容生产、快速原型与创意探索等场景。
在线运行:
项目示例
4. WeDLM 高效大语言模型解码框架
WeDLM是由腾讯推出的高效大语言模型解码框架,旨在为下一代 AI 对话系统提供极速、智能且高度自适应的语言生成体验。该框架采用了创新的窗口并行解码架构,在保持高质量文本生成的同时,实现了显著的速度提升。其核心技术突破在于通过熵阈值决策与位置惩罚机制的结合,彻底解决了传统自回归解码在长序列生成中的速度瓶颈。
在线运行:
项目示例
5. MedGemma 1.5 多模态 AI 医疗模型
MedGemma 1.5 是由谷歌开源的多模态 AI 医学模型,专为处理医学影像和文本数据设计。模型支持高维医学影像(如 CT 和 MRI)、全切片病理影像、纵向影像分析、解剖定位、医学文档理解和电子健康记录(EHR)解读等功能。模型基于 SigLIP 图像编码器和强大的语言模型,使用多种医学数据进行预训练,包括影像、文本和实验室报告。
在线运行:
项目示例
6. FLUX.2-klein-4B:极速图像生成模型
FLUX.2-klein-4B 是由 Black Forest Labs (BFL) 推出的最新一代极速图像生成模型。作为 FLUX.2 系列中速度最快的蒸馏模型,它在一个紧凑的架构中统一了生成和编辑功能,拥有 40 亿参数(4B),能够在消费级显卡(约 13GB 显存)上运行。该模型采用 Rectified Flow Transformer 架构,实现了亚秒级(Sub-second)的端到端推理速度,专为需要实时生成且不牺牲质量的应用场景设计。
在线运行:
项目示例
7. Pocket-TTS:高质量轻量级流式 TTS 系统
Pocket-TTS 是由 Kyutai 实验室发布的极轻量化语音合成模型。该模型专注于低延迟和流式输出,旨在为资源受限的环境或需要实时交互的场景(如 AI 助手)提供高质量的语音生成能力。采用了端到端的优化架构,在保证音质的同时,极大地提升了推理速度。相比传统的庞大 TTS 系统,它不仅体积更小,且支持实时流式推理,特别适合在高性能算力容器上进行快速部署与交互式应用。
在线运行:
项目示例
8. vLLM+Open WebUI 部署 Nemotron-3 Nano
Nemotron-3-Nano-30B-A3B-BF16 是 NVIDIA 从零开始训练的大型语言模型 (LLM),旨在成为一个统一的模型,同时适用于推理和非推理任务。由 NVIDIA Corporation 发布的。Nemotron-3-Nano-30B-A3B-BF16 适用于开发人员设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 应用。
在线运行:
项目示例