本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数

0 阅读6分钟

Privacy Filter 是 OpenAI 开源的一款专为高吞吐量数据清理打造的双向标记分类模型,用于高效检测和屏蔽文本中的个人身份信息 (PII) 。它基于类似 gpt-oss 的小型预训练架构改造而成,摒弃了传统的逐词生成方式,而是通过一次前向传播结合约束维特比算法,直接对输入序列进行连贯的片段解码。

目前,HyperAI 超神经官网已上线了「Privacy Filter 隐私过滤模型」,快来试试吧~

在线使用:go.hyper.ai/Py1l3

4 月 25 日-4 月 30 日,hyper.ai 官网更新速览:

  • 优质公共数据集:5 个

  • 优质教程精选:5 个

  • 社区文章解读:1 篇

  • 热门百科词条:5 条

  • 5 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. Transfermarkt Football 足球转会数据集

Transfermarkt Football 是基于 Transfermark 网站构建的一个面向体育分析与数据建模的结构化足球转会市场数据集。该数据集包含超过 80,000 场足球比赛,400 家俱乐部,以及 37,000 余名球员,并记录了球员身价变化、出场记录与转会流动情况。

在线使用:go.hyper.ai/lF661

2. Yoga Training 瑜伽动作分类与训练数据集

Yoga Training 是一个用于瑜伽姿态分类的数据集,主要用于图像分类、姿态识别、轻量级深度学习训练、迁移学习实验。该数据集包含 1,771 个瑜伽动作样本图像,涵盖广泛的难度级别和姿势类别。

在线使用:go.hyper.ai/hVdM8

3. Corn Leaf Diseases 玉米叶片病害检测数据集

Corn Leaf Diseases 是一个专门为精准农业中的目标检测任务设计的玉米叶片图像数据集。该数据集包含 4,027 张玉米叶片图像,涵盖 4 个类别,涵盖健康的玉米叶片以及 3 种常见的病害:锈病、灰斑病和枯萎病。

在线使用:go.hyper.ai/UbRRp

4. Apple Leaf Diseases 苹果叶片病害检测数据集

Apple Leaf Diseases 是一个专门为精准农业中的目标检测任务设计的高质量苹果叶片图像数据集。该数据集包含 3,444 张苹果叶片图像,涵盖 4 个类别,包括健康的苹果叶片以及 3 种高发病害:黑腐病(Black Rot)、雪松锈病(Cedar Rust)和褐斑病(Scab)。

在线使用:go.hyper.ai/LDafw

5. Drug Adverse Event Detection 药物不良反应检测数据集

Drug Adverse Event Detection 是一个模拟现实世界中患者多药物处方场景的文本数据集,旨在研究由于多种药物联合使用而导致的药物不良反应风险,广泛应用于药物不良反应检测、医学信息抽取、临床文本分析及医疗 AI 模型训练等场景。

在线使用:go.hyper.ai/AlL32

公共教程精选

1. Privacy Filter 隐私过滤模型

OpenAI Privacy Filter 是 OpenAI 于 2026 年 4 月发布的双向 token classification 模型,用于检测并遮蔽文本中的个人可识别信息(PII)。模型采用与 gpt-oss 相近但规模更小的架构,官方模型卡说明其总参数约 1.5B 、活跃参数约 50M,支持最长 128K token 上下文,并通过 33 个 BIOES token 级标签输出隐私片段边界。

在线运行:go.hyper.ai/Py1l3

Demo 页面

2. Hermes 运行教程

Hermes Agent 是 Nous Research 团队于 2026 年开发的开源自进化 AI 智能体。该项目的核心特点是内置了学习闭环——能够从任务经验中自动创建技能(Skill),在使用过程中持续改进,主动将知识持久化到记忆系统,并能搜索历史对话,在跨会话中逐步建立对用户的深度理解。本网站为您提供 Hermes 的 GPU 和 CPU 两个运行教程。

在线运行 GPU 版本:go.hyper.ai/nnyFT

在线运行 CPU 版本:go.hyper.ai/kdo9i

Demo 页面

3.  一键部署 DeepSeek-V4-Flash

DeepSeek V4 是深度求索(DeepSeek)团队发布的最新一代大语言模型,包含两个版本:DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(285B 参数)。 DeepSeek V4 采用全新的高效长上下文注意力机制,原生支持高达 100 万 tokens 的上下文长度,专为处理超长文本任务而设计。

在线运行:go.hyper.ai/sFyxU

Demo 页面

4. 使用 Free-CPU 部署 MOSS-TTS-Nano

MOSS-TTS-Nano 是由 OpenMOSS 团队于 2026 年 4 月发布的 0.1B 参数规模多语言文本转语音模型,支持在 CPU 环境下完成语音生成与语音克隆。模型在设计上兼顾了文本生成语音的自然度、跨语言可用性以及参考音频驱动的音色迁移能力,使其能够覆盖从基础朗读到语音克隆的多种常见任务。

在线运行:go.hyper.ai/CwMEH

Demo 页面

社区文章解读

1. 利用堆叠集成学习,英国研究团队实现 251 颗盾牌座δ型星星震学指数高精度预测

英国华威大学研究团队构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0.77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

查看完整报道:go.hyper.ai/mNGlM

热门百科词条精选

1.  技能 Skills

2. 超网络 HyperNetworks

3. Sigmoid 函数 Sigmoid Function

4.  倒数排序融合 Reciprocal Rank Fusion

5. 多智能体架构 Multi-Agent Architecture

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

go.hyper.ai/wiki

5 月截稿顶会

一站式追踪人工智能学术顶会:go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 2100+ 公开数据集提供国内加速下载节点

  • 收录 700+ 经典及流行在线教程

  • 解读 300+ AI4Science 论文案例

  • 支持 700+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

hyper.ai